正誤判別規則学習を用いた複数の日本語固有表現抽出システムの出力の混合 Learning to Combine Outputs of Multiple Japanese Named Entity Extractors

この論文にアクセスする

この論文をさがす

著者

    • 内元 清貴 UCHIMOTO KIYOTAKA
    • 独立行政法人 通信総合研究所 けいはんな情報通信融合センター Keihanna Human Info-Communications Research Center, Communications Research Laboratory, Independent Administrative Institution

抄録

本論文では, 日本語固有表現抽出の問題において, 複数のモデルの出力を混合する手法を提案する. 一般に, 複数のモデル・システムの出力の混合を行なう際には, まず, できるだけ振る舞いの異なる複数のモデル・システムを用意する必要がある. 本論文では, 最大エントロピー法に基づく統計的学習による固有表現抽出モデルにおいて, 現在位置の形態素が, いくつの形態素から構成される固有表現の一部であるかを考慮して学習を行なう可変 (文脈) 長モデルと, 常に現在位置の形態素の前後数形態素ずつまでを考慮して学習を行なう固定 (文脈) 長モデルとの間のモデルの挙動の違いに注目する. そして, 複数のモデルの挙動の違いを調査し, なるべく挙動が異なり, かつ, 適度な性能を保った複数のモデルの出力の混合を行なう. 次に, 混合の方式としては, 複数のシステム・モデルの出力 (および訓練データそのもの) を入力とする第二段目の学習器を用いて, 複数のシステム・モデルの出力の混合を行なう規則を学習するという混合法 (stacking法) を採用する. 第二段目の学習器として決定リスト学習を用いて, 固定長モデルおよび可変長モデルの出力を混合する実験を行なった結果, 最大エントロピー法に基づく固有表現抽出モデルにおいてこれまで得られていた最高の性能を上回る性能が達成された.

In this paper, we propose a method for learning a classifier which combines outputs of more than one Japanese named entity extractors. The proposed combination method belongs to the family of <I>stacked generalizers</I>, which is in principle a technique of combining outputs of several classifiers at the first stage by learning a second stage classifier to combine those outputs at the first stage. Individual models to be combined are based on maximum entropy models, one of which always considers surrounding contexts of a fixed length, while the other considers those of variable lengths according to the number of constituent morphemes of named entities. As an algorithm for learning the second stage classifier, we employ a decision list learning method. Experimental evaluation shows that the proposed method achieves improvement over the best known results with Japanese named entity extractors based on maximum entropy models.

収録刊行物

  • 自然言語処理 = Journal of natural language processing  

    自然言語処理 = Journal of natural language processing 9(1), 65-100, 2002-01-10 

    一般社団法人 言語処理学会

参考文献:  34件

参考文献を見るにはログインが必要です。ユーザIDをお持ちでない方は新規登録してください。

被引用文献:  2件

被引用文献を見るにはログインが必要です。ユーザIDをお持ちでない方は新規登録してください。

各種コード

  • NII論文ID(NAID)
    10021991736
  • NII書誌ID(NCID)
    AN10472659
  • 本文言語コード
    JPN
  • 資料種別
    ART
  • ISSN
    13407619
  • NDL 記事登録ID
    6033690
  • NDL 雑誌分類
    ZU8(書誌・図書館・一般年鑑--図書館・ドキュメンテーション・文書館)
  • NDL 請求記号
    Z21-B168
  • データ提供元
    CJP書誌  CJP引用  NDL  J-STAGE 
ページトップへ