名詞の連接情報を用いた関連文書検索手法

書誌事項

タイトル別名
  • メイシ ノ レンセツ ジョウホウ オ モチイタ カンレン ブンショ ケンサク シュホウ
  • A Retrieval Method for Relevant Documents Employing Connective Information of Nouns
  • 情報学基礎

この論文をさがす

抄録

名詞の連接に着目した関連文書検索手法を提案し 実験により評価を行った. 本論文で提案する手法は ベクトル空間法に基づき 索引語の単位として名詞の連接を用いるという点が特徴である. 情報検索において ある1つの事象を示すために様々な名称を用いることによる精度の低下という問題がある. また 日本語の文書には多くの複合語が見られ これが検索精度低下の一因となっている. 本論文では 適合率を向上させるために 名詞の連接を索引の単位として用いることを提案する. また複合語における表記のゆれを吸収する経験則を導入することにより再現率が向上することを示す. 日本経済新聞を対象として 単語のみに着目する従来手法との比較実験を行った. その結果 F値の平均が 比較手法76.2% 提案手法85.9%となり 本手法の有効性を確認した.

We propose a retrieval method of relevant Japanese documents by employing information on noun connections. The method is based on the vector space model, but the method employs noun connections as indexing terms. On the part of information retrieval, there is a problem that we can use various nouns to express a phenomenon. The problem causes a decline of precision in information retrieval. In addition, Japanese texts have many compound nouns and these nouns may be hindrance to retrieve, because these nouns may cause fluctuation. In this paper, we propose employing noun connections as indexing terms to improve the precision. And we show that the recall raised by heuristics solving fluctuation of compound nouns. We carried out experiments with comparing a word-based method and the proposed method for a Japanese newspaper (The Nihon Keizai Shimbun). The experimental results show that the proposed method attains 85.9% F-measure on the average which is approximately 10% higher than that of a conventional word-based method.

収録刊行物

被引用文献 (5)*注記

もっと見る

参考文献 (15)*注記

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ