高次元特徴空間に適した半教師あり条件付確率場の検証 Semi-supervised Conditional Random Fields for Extremely Large and Sparse Feature Spaces

この論文にアクセスする

この論文をさがす

著者

    • 鈴木 潤 SUZUKI Jun
    • 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 NTT Communication Science Laboratories, NTT Corp.
    • 藤野 昭典 FUJINO Akinori
    • 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 NTT Communication Science Laboratories, NTT Corp.
    • 磯崎 秀樹 ISOZAKI Hideki
    • 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 NTT Communication Science Laboratories, NTT Corp.

抄録

本稿では,半教師あり条件付確率場(Semi supervised conditional random fields)について議論をおこなう.自然言語処理の多くのタスクでは )効果的なモデル学習のために単語やその連接といった特徴を利用する必要があり,一般的に数万次元以上という高次元かつスパースな特徴空間を用いて学習をおこなう必要がある。よって,これらのタスクでは,半教師あり学習の枠組みにおいても,高次元スパース特徴空間に頑健な枠組が求められるそこで。本稿では文献[1]の枠組をベースにし,高次元スパース特徴空間に対して頑健な半教師あり条件付確率場を新たに提案する.また,固有表現抽出およびチヤンキングタスクを用いて半教師あり条件付確率場の性能と性質について検証をおこなった提案法により,従来の教師あり条件付確率場[2],エントロピー正則化に基づく半教師あり条件付確率場[3]と比較して大幅に良い結果が得られたまた,エントロピー、正則化に基づく半教師あり条件付確率場は,理論的にも実験的にも,高次元スパース特徴空間を用いた学習では性能の向上が期待できないことを明らかにする.This paper proposes a novel semi-supervised conditional random field which provides good characteristics with respect to handling the large and sparse feature spaces. Experiments on two real NLP tasks with extremely large feature spaces, such as named entity recognition and syntactic chunking, show that our proposed method significantly improves the state-of-the-art performance obtained from supervised CRFs[2], and semi-supervised CRFs employing the entropy regularization approach[3]. Moreover, this paper reveals that, theoretically and experimentally, semi-supervised CRFs based on the entropy regularization approach[2] cannot work well for improving the performance of tasks with large and sparse feature spaces.

This paper proposes a novel semi-supervised conditional random field which provides good characteristics with respect to handling the large and sparse feature spaces. Experiments on two real NLP tasks with extremely large feature spaces, such as named entity recognition and syntactic chunking, show that our proposed method significantly improves the state-of-the-art performance obtained from supervised CRFs [2], and semi-supervised CRFs employing the entropy regularization approach [3]. Moreover, this paper reveals that, theoretically and experimentally, semi-supervised CRFs based on the entropy regularization approach [3] cannot work well for improving the performance of tasks with large and sparse feature spaces.

収録刊行物

  • 情報処理学会研究報告自然言語処理(NL)

    情報処理学会研究報告自然言語処理(NL) 2007(94(2007-NL-181)), 21-28, 2007-09-25

    一般社団法人情報処理学会

参考文献:  9件中 1-9件 を表示

各種コード

  • NII論文ID(NAID)
    110006402894
  • NII書誌ID(NCID)
    AN10115061
  • 本文言語コード
    JPN
  • 資料種別
    Technical Report
  • ISSN
    09196072
  • NDL 記事登録ID
    8938438
  • NDL 雑誌分類
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL 請求記号
    Z14-1121
  • データ提供元
    CJP書誌  NDL  NII-ELS  IPSJ 
ページトップへ