同義語辞書作成支援システム A System for Constructing a Synonym Dictionary

この論文にアクセスする

この論文をさがす

著者

抄録

同義語の同定は,情報検索,テキストマイニングなどのテキスト処理を行う上で必要な作業である.同義語辞書を作成することにより,テキスト処理の効率や精度の向上を期待できる.特定分野における文書には,専門の表現が多く用いられており,その中には,分野独特の同義語が多量に含まれている.例えば,日本語の航空分野では,漢字・ひらがなだけでなく,カタカナ,アルファベット,およびそれらの略語が同義語として用いられている.この分野の同義語は,汎用の辞書に登録されていないものが多く,既存の辞書を使用できないので,辞書を新たに作成する必要がある.また,辞書作成後も常に新しい語が発生するので,辞書の定期的な更新が必要となるが,それを人手で行うのは大変な作業である.本論文では,同義語辞書作成を半自動化するシステムを提案する,システムは,クエリが与えられると意味的に同じ候補語を提示する.辞書作成者は,その中から同義語を選択して,辞書登録を行うことができる.候補語のクエリに対する類似度は,同義語の周辺に出現する語の頻度情報を文脈情報とし,その余弦から計算する.文脈情報のみでは十分な精度が得られない場合,既知の同義語を知識としてシステムに与えることにより,文脈語の正規化を行い,精度を向上できることを確認した.実験は,航空分野の日本語のレポートを対象とし,システムの評価には平均精度を用いて行い,満足できる結果が得られた.To identify a synonym is a necessary procedure for text processing such as information retrieval and text mining. We can expect to improve the proficiency and performance in text processing by constructing a synonym dictionary. Same words might possibly be used as a different meaning if the target field differs, so a synonym dictionary has to be constructed for each field. In some fields in Japanese, such as in aviation, synonym nouns include kanjijhiragana, katakana, alphabet and their abbreviations. Many of these words are not registerd in a general dictionary. In addition, as new words always come to be used, the dictionary update is a big issue. In this paper, we propose a system for constructing a synonym dictionary. The system will return synonym candidates on the descending order of similarity against a query. A synonym can be easily registered in a dictionary by looking the synonym candidates generated by the proposed system. We define a context information as words frequency appearing around a target word. Then a similarity is calculated by cosine measure using context information. We confirmed that the system performance was remarkably improved by providing the system with known synonym set to make context word nominalization, especially when the performance was low. We experimentally evaluated the system performance by aviation safety reports in Japanese and evaluated it by average precision, and got promising results.

収録刊行物

  • 自然言語処理 = Journal of natural language processing

    自然言語処理 = Journal of natural language processing 15(2), 39-58, 2008-04-10

    言語処理学会

参考文献:  12件中 1-12件 を表示

各種コード

  • NII論文ID(NAID)
    10021991850
  • NII書誌ID(NCID)
    AN10472659
  • 本文言語コード
    JPN
  • 資料種別
    ART
  • ISSN
    13407619
  • NDL 記事登録ID
    9571538
  • NDL 雑誌分類
    ZU8(書誌・図書館・一般年鑑--図書館・ドキュメンテーション・文書館)
  • NDL 請求記号
    Z21-B168
  • データ提供元
    CJP書誌  NDL  IR 
ページトップへ