Read/Search this Article
Abstract
筆者らは自然言語の持つ意味曖昧性による情報検索の精度低下の問題に対して関連性の重ね合わせモデルによる検索を提案してきた.本論文では,提案手法が言語横断検索において,単一言語検索時と同様に検索精度を向上させることを情報検索のためのテストセット NTCIR 1,2を用いた評価実験により示す.提案手法である関連性の重ね合わせモデルは,著者キーワードなどの情報に基づいて文書をクラスタリングすることで,索引語の重要度計算をtf・idfなどの手法より高い精度で行うものである.本論文の実験ではその効果の言語独立性を示すために,辞書を用いた翻訳手法あるいはコーパスに基づく翻訳手法と組み合わせてテストセット上で言語横断検索の精度を比較,特性を分析する.実験の結果は,提案手法が言語横断検索でも単一言語検索時と同程度の4〜9%の精度向上を示し,また問合せ拡張(query expansion)と組み合わせることでより高い検索精度が得られた.
We have proposed Relevance-based Superimposition (RS) model for IR which is expected to solve the problem of semantic ambiguity. In this paper, we show the effectiveness of our proposed IR method in cross-language information retrieval by the experiments with NTCIR 1, 2 multilingual IR test sets. The proposed RS model modifies the document feature vectors using document clusters organized according to the relevance of documents, and it is expected to achieve higher precision of retrieval, independent of language. The results of our experiments with dictionary- and corpus-based translation methods indicate that our document feature modification model achieves 4 to 9% improvement, avoiding the difficulties of language- or domain-dependent parameters. Furthermore, the combination of our model and query expansion achieves higher improvement, which is more than the summation of their individual effectiveness.
Journal
- 情報処理学会論文誌. データベース [List of Volumes]
-
情報処理学会論文誌. データベース 43(SIG_2(TOD_13)), 1-10, 2002-03-15 [Table of Contents]
Information Processing Society of Japan (IPSJ)