決定木による日本語長文の短文分割 The Application of Decision Trees to Segmentation of Long Japanese Sentences

この論文にアクセスする

この論文をさがす

著者

    • 張 玉潔 ZHANG YUJIE
    • 電気通信大学 情報通信工学科 Department of Information and Communication Engineering, The University of Electro-Communications
    • 尾関 和彦 OZEKI KAZUHIKO
    • 電気通信大学 情報通信工学科 Department of Information and Communication Engineering, The University of Electro-Communications

抄録

多数の接続節を含む日本語長文をそのまま係り受け解析することは大変困難であることが知られている. そのため, 係り受け解析の補助手段として, 文をより単純で短い文に分割することが研究されている. 従来の方法は, 分割パターンや分割規則を人手で作成しなければならないという問題がある. 本論文では, 決定木を用いて, 分割点を推定するためのパターンをコーパスから自動的に獲得する方法を提案する. この方法によれば, 学習データ中に現われる言語現象とその出現頻度に応じて, 最適分割パターンとその適用順序が自動的に決定される. EDRコーパスを用いて, 分割パターンの自動抽出と, それを用いた分割点推定の実験を行なった. 400文の評価データに対し, 84%の適合率と再現率, また77%の文正解率が得られた. さらに, 決定木を生成する過程で枝苅りを行うことにより, 決定木の分割精度を保ちながら, その節点数を大きく削減できることが確かめられた.

It is well known that direct parsing of a long Japanese sentence, including many conjunctive clauses, is extremely difficult. Therefore, it is preferable to segment such a sentence into shorter, simpler ones prior to parsing. Some methods for sentence segmentation have been reported so far. However, because those conventional methods are based on handmade segmentation patterns or rules, they have problems in keeping consistency of the patterns, and in deciding the optimal order of applying those rules. This paper proposes a new method of sentence segmentation using a decision tree, which acquires optimal segmentation patterns and the optimal order of their application automatically from a corpus, taking both linguistic phenomena and their occurrence frequencies into account. Generation and evaluation of a decision tree for sentence segmentation were conducted on an EDR corpus. For 400 evaluation sentences, precision and recall were both 84%, and the percentage of correctly segmented sentences was 77%. It was also confirmed that pruning reduces the tree size significantly without deteriorating the performance.

収録刊行物

  • 自然言語処理 = Journal of natural language processing  

    自然言語処理 = Journal of natural language processing 7(1), 13-30, 2000-01-10 

    一般社団法人 言語処理学会

参考文献:  16件

参考文献を見るにはログインが必要です。ユーザIDをお持ちでない方は新規登録してください。

各種コード

  • NII論文ID(NAID)
    10021991375
  • NII書誌ID(NCID)
    AN10472659
  • 本文言語コード
    JPN
  • 資料種別
    ART
  • ISSN
    13407619
  • NDL 記事登録ID
    4962088
  • NDL 雑誌分類
    ZU8(書誌・図書館・一般年鑑--図書館・ドキュメンテーション・文書館)
  • NDL 請求記号
    Z21-B168
  • データ提供元
    CJP書誌  NDL  J-STAGE 
ページトップへ