複合語の分野連想語の効率的決定法 An Efficient Method of Determining Field Association Terms of Compound Words

この論文にアクセスする

この論文をさがす

著者

    • 辻 孝子 TSUJI Takako
    • 徳島大学工学部知能情報工学科 Dept. of Information Science & Intelligent Systems, The University of Tokushima
    • 泓田 正雄 FUKETA Masao
    • 徳島大学工学部知能情報工学科 Dept. of Information Science & Intelligent Systems, The University of Tokushima
    • 青江 順一 AOE Jun-ichi
    • 徳島大学工学部知能情報工学科 Dept. of Information Science & Intelligent Systems, The University of Tokushima

抄録

人間は文書全体を読むことなしに, 代表的な単語を見るだけで, <政治>や<スポーツ>などの分野を認知できることから, 文書断片内の数少ない単語情報から分野を的確に決定するための分野連想語の構築は重要な研究課題である. しかし, 文書から連想語を抽出する場合, 複合語の冗長な連想語が多く存在する. 本論文では, 事前に分野体系が定義され, 各分野に文書データが構築されている場合において, 複合語の分野連想語を効率的に決定する手法を提案する. 本手法では, 連想分野を特定する範囲に応じて連想語を五つの水準に分類し, まず複合語以外の単語 (短単位語と呼ぶ) の連想語候補を決定し, 人手で修正を加える. 次に, この短単位語の連想情報を利用して, 膨大な数になる複合語の連想語候補を自動的に絞り込む. 収集された180分野の学習データ (42メガバイト, 15, 435ファイル) に対して提案手法を適用した結果, 88, 782個の候補が8, 405個 (候補数の約9%) の連想語に絞り込まれ, 再現率0. 77以上 (平均0. 85), 想語を利用した264種類の断片文書の分野決定実験より, 複合連想語と短単位連想語による正解率は90%以上となり, 短単位連想語のみの場合より約30%向上することが分かった.

Although there are many kinds of research about text classification based on term information in the whole text, humans can recognize the field of a text by finding a small number of specific words in it. In this paper, such terms are called a field association (FA) term that can be directly related to the field of a text. It is possible to collect single-word FA terms because the number is finite, but there are some difficulties: how to select useful compound FA terms from a huge number of combinations of single-word FA terms. For FA terms, five association levels are defined and two kinds of ranks based on stability and inheritance are presented. Redundant candidates of compound FA terms can be removed remarkably by using the level and the rank. From the simulation results of 180 fields' Japanese text files, it turns out that the total number 88, 782 of candidates for compound FA terms can be reduced to 8, 405 which is about 9% to the original and that recall and precision are more than 0.77 and 0.90, respectively. From the experimental results of field determination using FA terms for 264 fragments of texts, it is shown that the accuracy by the presented method attains more than 90%, and that is about 30% higher than the case where only single-word FA terms are used.

収録刊行物

  • 自然言語処理 = Journal of natural language processing

    自然言語処理 = Journal of natural language processing 7(2), 3-26, 2000-04-10

    一般社団法人 言語処理学会

参考文献:  33件中 1-33件 を表示

被引用文献:  2件中 1-2件 を表示

各種コード

  • NII論文ID(NAID)
    10008829582
  • NII書誌ID(NCID)
    AN10472659
  • 本文言語コード
    JPN
  • 資料種別
    ART
  • ISSN
    13407619
  • NDL 記事登録ID
    5437692
  • NDL 雑誌分類
    ZU8(書誌・図書館・一般年鑑--図書館・ドキュメンテーション・文書館)
  • NDL 請求記号
    Z21-B168
  • データ提供元
    CJP書誌  CJP引用  NDL  J-STAGE 
ページトップへ