統計的構文解析における構文的統計情報と語彙的統計情報の統合について  [in Japanese] A Framework of Integrating Syntactic and Lexical Statistics in Statistical Parsing  [in Japanese]

Access this Article

Search this Article

Author(s)

    • 白井 清昭 SHIRAI Kiyoaki
    • 東京工業大学大学院情報理工学研究所計算工学 Department of Computer Science, Graduate School of Information Science and Engineering, Tokyo Institute of Technology
    • 乾 健太郎 INUI Kentaro
    • 九州工業大学情報工学部知識情報工学科 Department of Artifical Intelligence, Kyushu Institute of Technology
    • 徳永 健伸 TOKUNAGA Takenobu
    • 東京工業大学大学院情報理工学研究所計算工学 Department of Computer Science, Graduate School of Information Science and Engineering, Tokyo Institute of Technology
    • 田中 穂積 TANAKA Hozumi
    • 東京工業大学大学院情報理工学研究所計算工学 Department of Computer Science, Graduate School of Information Science and Engineering, Tokyo Institute of Technology

Abstract

本論文では,構文解析の曖昧性解消を行うために,構文的な統計情報と語彙的な統計情報を統合する手法を提案する.我々が提案する統合的確率言語モデルは,構文的優先度などの構文的な統計情報を反映する構文モデルと,単語の出現頻度や単語の共起関係などの語彙的な統計情報を反映する語彙モデルの2つの下位モデルから成る.この統計的確率言語モデルは,構文的な統計情報と語彙的な統計情報を同時に学習する過去の多くのモデルと異なり,両者を個別に学習する点に特徴がある.構文的な統計情報と語彙的な統計情報を独立に取り扱うことにより,それぞれの統計情報を異なる言語資源から独立に学習することができるだけでなく,それぞれの統計情報が曖昧性解消においてどのような効果を果たすのかを容易に分析することができる.この統計的確率言語モデルを評価するために,日本語文の文節の係り受け解析を行った.構文モデルを用いたときの文節の正解率は73.38%となり,ベースラインに比べて11.70%向上した.また,構文モデルと語彙モデルを組み合わせることにより,文節の正解率はさらに10.96%向上し84.34%となった.この結果,本研究で提案する枠組において,語彙的な統計情報は構文的な統計情報と同程度に曖昧性解消に貢献することを確認した. : In this paper, we propose a new framework of statistical language modeling integrating syntactic statistics and lexical statistics. Our model consists of two submodels, the syntactic model and lexical model. The syntactic model reflects syntactic statistics, such as structural preferences, whereas the lexical model reflects lexical statistics, such as occurrence of each word and word collocations. One of the characteristics of our model is that it learns both types of statistics separately, although many previous models learn them simultaneously. Learning each submodel separately enables us to use a different language source for different submodels, and to make understanding of each submodel's behavior much easier. We conducted a preliminary experiment, where our model was applied to the disambiguation of dependency structures of Japanese sentences. The syntactic model achieved 73.38% in Bunsetu phrase accuracy, which is 11.70 points above the baseline, and when incorporating the lexical model with the syntactic model, further 10.96 point gain was achieved, to 84.34%. Thus the contribution of lexical statistics for disambiguation is as great as that of syntactic statistics in our framework.

Journal

  • 自然言語処理 = Journal of natural language processing

    自然言語処理 = Journal of natural language processing 5(3), 85-106, 1998-07-10

    言語処理学会

References:  32

Cited by:  14

Codes

  • NII Article ID (NAID)
    10008827770
  • NII NACSIS-CAT ID (NCID)
    AN10472659
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • ISSN
    13407619
  • Data Source
    CJP  CJPref  IR 
Page Top