単語類似度ネットワークを通じた自動同義語獲得 (自然言語処理・音声言語情報処理)  [in Japanese] Automatic synonym acquisition through word similarity network  [in Japanese]

Search this Article

Author(s)

Abstract

コーパスから同義語の対を抽出するための一般的な方法では、通常二つ単語間の類似度(例えば、cosine類似度)が必要である。類似度を使用することで、特定のクエリ単語に対しての類似語ランキングが可能になり、同義語候補リストから正しい同義語が認定できる。この論文では、それに加えて,単語類似度ネットワークを分析する新しい方法を提案する。単語類似度ネットワークでは閾値以上の類似度をアークとして、単語をノードとして定義する。提案する自動同義語候補選択ためのランク閾値(Rank Threshold for synonym candidate Selection method, RTS)によって類似度の順位が閾値以内のアークが構成される単語類似度ネットワークはスケールフリーグラフである。この性質に基づいて、我々は新しい同義語候補のリランキング手法を提案する。これを相互リランキング法(Mutual Re-ranking Method, MRM)と呼ぶ。同義語獲得における提案手法の有効性を示すためにMRM方法をReuters-21578に適用した。実験結果によって、RTSとMRMが同義語抽出の品質の向上させることが示された。

Popular methods for acquiring synonymous word pairs from a corpus usually require a similarity metric between two words, such as cosine similarity. This metric enables us to retrieve words similar to a query word, and we identify true synonyms from the list of synonym candidates. Instead of stopping at this point, we propose to go further by analyzing word similarity network that are induced by the similarity metric for the edges with the similarities that are ranked as top threshold number. By introducing the rank threshold for synonym candidate selection method (RTS), our analysis shows that the network exhibits a scale-free property. This insight obtained from the network leads us to a method for re-ranking the synonym candidates -- a mutual re-ranking method (MRM). We apply our methods to Reuters-21578 to show the generality of the methods on synonym acquisition. The results show that RTS and MRM boosts the quality of acquired synonyms.

Journal

  • IPSJ SIG Notes

    IPSJ SIG Notes 2008(46), 7-14, 2008-05-22

    Information Processing Society of Japan (IPSJ)

Codes

  • NII Article ID (NAID)
    110006794819
  • NII NACSIS-CAT ID (NCID)
    AN10115061
  • Text Lang
    JPN
  • Article Type
    特集
  • ISSN
    09196072
  • NDL Article ID
    9524705
  • NDL Source Classification
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL Call No.
    Z14-1121
  • Data Source
    NDL  NII-ELS 
Page Top