文書群からの概念グラフの構成(検索とキーワード・概念抽出)  [in Japanese] Construction of Concept Graph from Documents  [in Japanese]

Abstract

単語の意味を、その単語が現れる文書の集合により規定するという立場から、単語の上位下位関係の定式化を試みる。特定の文書群と全体の文書群が与えられたとき、ある単語が出現する文書の過半数がその文書群の文書であるとき、その単語はその文書群の特徴的単語と見なす。次に、その特定文書群において、単語uが出現する文書の過半数において単語vが出現し、かつ、uの文書頻度の方がvの文書頻度より大きいとき、uはvの上位概念とする。こうして得られる上位下位関係から有向グラフを構成する。約500人の教員活動概要の文書群に対して概念グラフを構築し、人手による単語の上位下位関係と比較評価を行なった。

This paper proposes a novel formulation of superordinate relation between words based on the document frequency of words in a given set of documents. A word u is hypernym to v when more than half of documents that contains v contains u and the number of documents that contains u is larger than that of v. An algorithm is shown to generate a directed graph from this superordinate relation. The algorithm is applied to generate concept graphs for documents of activity overview of university researchers.

Journal

IPSJ SIG Notes   [List of Volumes]

IPSJ SIG Notes 2005(94), 79-84, 2005-09-29  [Table of Contents]

Information Processing Society of Japan (IPSJ)

Preview

Preview

Codes

  • NII Article ID (NAID) :
    110002952144
  • NII NACSIS-CAT ID (NCID) :
    AN10114171
  • Text Lang :
    JPN
  • Databases :
    NII-ELS 

Share