条件付確率場による日本語未知語処理  [in Japanese] Japanese Unknown Word Processing using Conditional Random Fields  [in Japanese]

Search this Article

Author(s)

    • 東 藍 AZUMA Ai
    • 奈良先端科学技術大学院大学 情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology
    • 浅原 正幸 ASAHARA Masayuki
    • 奈良先端科学技術大学院大学 情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology
    • 松本 裕治 MATSUMOTO Yuji
    • 奈良先端科学技術大学院大学 情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology

Abstract

本稿では,日本語形態素解析において問題となる未知語処理に対して条件付確率場(Conditional Random Fields, CRF)を適用する手法を提案する.提案手法では,形態素解析と同時に入力文中の部分文字列に対して未知語候補を追加することにより,形態素解析と未知語処理を同時に行う.また,従来最大エントロピーマルコフモデル(Maximum Entropy Markov Model, MEMM)などを適用した手法で指摘されていたlabel biasあるいはlength biasの影響は,単に既知語の解析において問題になるだけではなく,未知語処理においても重要な問題となることを示し,CRFを適用することによりこれらの問題が解決されることを示す.そして大規模な正解タグ付コーパスを用いて実験し,本稿の提案手法の有効性を検証した

This paper proposes a new method for Japanese morphological analysis with unknown word (i.e. out-of-vocabulary word) processing. The Japanese morphological analysis is based on conditional random fields (CRF) on a word trellis. In the word trellis, the analyzer expands not only known words (i.e. in-vocabulary word) but also substrings in a sentence as word candidates. Kudo (Kudo 2004) discussed an issue that maximum entropy Markov model (MEMM) has label as well as length bias problems in known word processing and CRFs have potential to cope with them. We discuss the same issue in unknown word processing. Evaluation experiments on large-scale corpora show the effectiveness and impact on the proposed method.

Journal

  • IPSJ SIG Notes

    IPSJ SIG Notes 173, 67-74, 2006-05-19

    Information Processing Society of Japan (IPSJ)

References:  11

Cited by:  5

Codes

  • NII Article ID (NAID)
    110004824235
  • NII NACSIS-CAT ID (NCID)
    AN10115061
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • ISSN
    09196072
  • NDL Article ID
    7936219
  • NDL Source Classification
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL Call No.
    Z14-1121
  • Data Source
    CJP  CJPref  NDL  NII-ELS 
Page Top