Webディレクトリを言語資源として利用した言語横断情報検索

Bibliographic Information

Other Title
  • Web ディレクトリ オ ゲンゴ シゲン ト シテ リヨウ シタ ゲンゴ オウダン ジョウホウ ケンサク
  • Cross - Language Information Retrieval Using Web Directories as a Linguistic Resource

Search this article

Abstract

インターネットの世界的な普及により,言語横断情報検索の重要性が増している.これまでに様々な手法が研究され,問合せの翻訳や訳語の曖昧性解消などにコーパスを利用する手法などにより一定の成果が得られている.しかしこのような手法では,コーパスの分野に対する依存が大きいため,コーパスが対象としていない分野に対しては検索精度が低くなる可能性がある.そこで本論文では,Web情報の言語横断情報検索において,たとえばYahooのような複数の言語版を持つWebディレクトリを利用する手法を提案する.事前に,カテゴリごとに属するWeb文書から特徴語を抽出し,これを比較することにより対応する異言語のカテゴリを決定する.検索において問合せが与えられると,問合せが適合する同言語のカテゴリに対応する異言語のカテゴリの特徴語を用いて問合せを翻訳することにより,訳語の曖昧性解消を図る.また,提案手法による検索の実験を行い,有効性の検証を行った.曖昧性解消を行わない対訳辞書による問合せ翻訳の場合よりも,提案手法の方が検索精度が向上することが明らかになった.

With the popularity of the Internet, more and more languages are used for Web documents. Since the Web consists of documents in various domains or genres, the method for Cross-Language Information Retrieval (CLIR) of Web documents should be independent of a particular domain. In this paper, we propose a CLIR method which employs Web directories provided in multiple language versions (such as Yahoo). In the proposed method, feature terms are first extracted from Web documents for each category in the source and the target languages. Then, one or more corresponding categories in another language are determined beforehand by comparing similarities between categories across languages. Using these category pairs, we intend to resolve ambiguities of simple dictionary translation by feature term set of the categories to be used for disambiguation. In order to verify the effectiveness of our method, we conducted experiments of the proposed retrieval method using English and Japanese versions of Yahoo. This experiment proved that the proposed method is more effective for CLIR than simple dictionary translation without disambiguation.

Journal

Citations (4)*help

See more

References(12)*help

See more

Related Projects

See more

Keywords

Details 詳細情報について

Report a problem

Back to top