統計的構文解析における構文的統計情報と語彙的統計情報の統合について A Framework of Integrating Syntactic and Lexical Statistics in Statistical Parsing

この論文にアクセスする

この論文をさがす

著者

    • 白井 清昭 SHIRAI Kiyoaki
    • 東京工業大学大学院情報理工学研究所計算工学 Department of Computer Science, Graduate School of Information Science and Engineering, Tokyo Institute of Technology
    • 乾 健太郎 INUI Kentaro
    • 九州工業大学情報工学部知識情報工学科 Department of Artifical Intelligence, Kyushu Institute of Technology
    • 徳永 健伸 TOKUNAGA Takenobu
    • 東京工業大学大学院情報理工学研究所計算工学 Department of Computer Science, Graduate School of Information Science and Engineering, Tokyo Institute of Technology
    • 田中 穂積 TANAKA Hozumi
    • 東京工業大学大学院情報理工学研究所計算工学 Department of Computer Science, Graduate School of Information Science and Engineering, Tokyo Institute of Technology

抄録

本論文では,構文解析の曖昧性解消を行うために,構文的な統計情報と語彙的な統計情報を統合する手法を提案する.我々が提案する統合的確率言語モデルは,構文的優先度などの構文的な統計情報を反映する構文モデルと,単語の出現頻度や単語の共起関係などの語彙的な統計情報を反映する語彙モデルの2つの下位モデルから成る.この統計的確率言語モデルは,構文的な統計情報と語彙的な統計情報を同時に学習する過去の多くのモデルと異なり,両者を個別に学習する点に特徴がある.構文的な統計情報と語彙的な統計情報を独立に取り扱うことにより,それぞれの統計情報を異なる言語資源から独立に学習することができるだけでなく,それぞれの統計情報が曖昧性解消においてどのような効果を果たすのかを容易に分析することができる.この統計的確率言語モデルを評価するために,日本語文の文節の係り受け解析を行った.構文モデルを用いたときの文節の正解率は73.38%となり,ベースラインに比べて11.70%向上した.また,構文モデルと語彙モデルを組み合わせることにより,文節の正解率はさらに10.96%向上し84.34%となった.この結果,本研究で提案する枠組において,語彙的な統計情報は構文的な統計情報と同程度に曖昧性解消に貢献することを確認した. : In this paper, we propose a new framework of statistical language modeling integrating syntactic statistics and lexical statistics. Our model consists of two submodels, the syntactic model and lexical model. The syntactic model reflects syntactic statistics, such as structural preferences, whereas the lexical model reflects lexical statistics, such as occurrence of each word and word collocations. One of the characteristics of our model is that it learns both types of statistics separately, although many previous models learn them simultaneously. Learning each submodel separately enables us to use a different language source for different submodels, and to make understanding of each submodel's behavior much easier. We conducted a preliminary experiment, where our model was applied to the disambiguation of dependency structures of Japanese sentences. The syntactic model achieved 73.38% in Bunsetu phrase accuracy, which is 11.70 points above the baseline, and when incorporating the lexical model with the syntactic model, further 10.96 point gain was achieved, to 84.34%. Thus the contribution of lexical statistics for disambiguation is as great as that of syntactic statistics in our framework.

収録刊行物

  • 自然言語処理 = Journal of natural language processing

    自然言語処理 = Journal of natural language processing 5(3), 85-106, 1998-07-10

    言語処理学会

参考文献:  32件中 1-32件 を表示

被引用文献:  14件中 1-14件 を表示

各種コード

  • NII論文ID(NAID)
    10008827770
  • NII書誌ID(NCID)
    AN10472659
  • 本文言語コード
    JPN
  • 資料種別
    ART
  • ISSN
    13407619
  • データ提供元
    CJP書誌  CJP引用  IR 
ページトップへ