大規模データを用いた半教師あり学習による高精度係り受け解析モデルの学習  [in Japanese] Learning High-performance Dependency Parsing Models by Large-scale Semi-supervised Learning  [in Japanese]

Access this Article

Search this Article

Abstract

係り受け解析では,正解係り受け構造が付与されたデータを用いた教師あり学習により解析器を学習するのが現在最も一般的な方法であり,データ量が十分あれば非常に高い解析精度が得られることが実証されている.しかし,さらなる解析精度向上のため,正解データを増やし続けるのは作成に要する費用や時間の観点で現実的な方策ではない.そこで本論文では,正解係り受け構造が付与されていないデータも利用して解析精度を向上させる,いわゆる半教師あり学習に基づく係り受け解析モデルとその学習法を提案する.実験では,係り受け解析の標準評価データとして広く利用されている,係り受け構造が交差するチェコ語,交差しない英語の2言語の係り受け解析データを用いて,提案法の有効性を定性的,定量的に検証する,提案法は,従来の教師あり学習で得た係り受け解析器を大幅に上回る解析精度を達成することを示す.Intensive work have recently been undertaken to develop dependency parsing. Most of the recent developed dependency parsers are obtained by using supervised learning with labeled data. In contrast, this paper introduces a high-performance dependency parser trained by semi-supervised learning, which is able to effectively incorporate unlabeled data as an additional training data. We demonstrate the effectiveness of our proposed method on dependency parsing experiments using two widely used test collections: the Penn Treebank for English as a projective dependency parsing, and the Prague Dependency Treebank for Czech as a non-projective dependency parsing. Our results in the above datasets significantly outperform those obtained from conventional supervised learning approach.

Journal

  • 情報処理学会論文誌  

    情報処理学会論文誌 52(11), 3038-3051, 2011-11-15 

    情報処理学会

Codes

  • NII Article ID (NAID)
    110008677681
  • NII NACSIS-CAT ID (NCID)
    AN00116647
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • ISSN
    1882-7764
  • NDL Article ID
    023333969
  • NDL Call No.
    YH247-743
  • Data Source
    NDL  IPSJ 
Page Top