Wikipediaのリンク共起性解析によるシソーラス辞書構築

Bibliographic Information

Other Title
  • Wikipedia ノ リンク キョウキセイ カイセキ ニ ヨル シソーラス ジショ コウチク
  • A Thesaurus Construction Method Based on Link Co-occurrence Analysis for Wikipedia

Search this article

Abstract

近年,知識処理の有用なコーパスとして,ユーザ同士が協調してコンテンツを編集するWeb事典である「Wikipedia」に多大な注目が集まっている.筆者らはこれまでの研究において,Wikipediaに対してリンク構造を解析することで精度の良いシソーラス辞書が構築できることを示してきた.しかし,膨大な記事数を持つWikipediaを解析するためには,高い精度を保ったままスケーラビリティのさらなる向上が技術的な課題であった.そこで,本研究ではリンクの共起性解析に着目し,スケーラビリティの高いシソーラス辞書構築手法を提案する.提案手法の性能評価のために行った実験の結果,共起性解析を用いた手法は従来手法よりも少ない計算時間で,高精度なシソーラス辞書を構築できることを確認した.さらに,共起性解析とtfidfを融合させることによって,より高い精度が実現できることを確認した.

Wikipedia, a huge scale Web based encyclopedia, attracts great attention as a valuable corpus for knowledge extraction. We have already proved how effective it is to construct a Web thesaurus. However, we still need high scalability methods to analyze the huge amount of Web pages and hyper links among articles in the encyclopedias. In this paper, we propose a scalable Web thesaurus construction method from Wikipedia by using link co-occurrence. Experimental results show that the proposed method based on link co-occurrence analysis was better on scalability and accuracy than previous methods. Moreover, the method combining tfidf with link co-occurrence analysis brought higher precision.

Journal

Citations (2)*help

See more

References(16)*help

See more

Keywords

Details 詳細情報について

Report a problem

Back to top