点予測による自動単語分割  [in Japanese] A Pointwise Approach to Automatic Word Segmentation  [in Japanese]

Abstract

本論文では,大量の学習コーパスがある分野で既存手法と同程度かそれ以上の解析精度を保持しつつ,部分的単語分割コーパスなどを利用して安価に分野適応を実現する自動単語分割の設計を提案する.具体的には,推定時の素性として,周囲の単語境界の推定値を参照せずに,周辺の文字列のみを参照する点予測による自動単語分割である.この設計により,単語境界が文の一部にのみ付与された部分的単語分割コーパスを利用することが可能となる.この結果,従来手法に比して格段に高い分野適応性を実現できる.実験では,提案手法と単語n-gramモデルや条件付き確率場による方法による単語分割の精度を比較し,提案手法が計算時間と精度の両方において優位であることが示された.

In this paper we propose a design of a word segmenter which allows us a quick domain adaptation keeping a high accuracy in the general domain where a large annotated corpus is available. Our method is based on a pointwise classification which refers only to the neighbouring characters. This design enables us to train our word segmenter by using a partially annotated corpus in which only some parts are annotated. As a result, a high domain adaptability is realized. In the experiments we compared our method and existing methods on word n-gram models or conditional random fields and showed our method is superior to the others in calculation time and accuracy.

Journal

IPSJ Journal   [List of Volumes]

IPSJ Journal 52(10), 2944-2952, 2011-10-15  [Table of Contents]

Information Processing Society of Japan (IPSJ)

Keywords

Codes

  • NII Article ID (NAID) :
    110008665640
  • NII NACSIS-CAT ID (NCID) :
    AN00116647
  • Text Lang :
    JPN
  • ISSN :
    03875806
  • NDL Article ID :
    024139198
  • NDL Source Classification :
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL Call No. :
    YH247-743
  • Databases :
    NDL  NII-ELS 

Share