決定リストを弱学習器としたアダブーストによる日本語単語分割 Japanese word segmentation by Adaboost using the decision list as the weak learner

この論文にアクセスする

この論文をさがす

著者

抄録

本論文では決定リストを弱学習器としたアダブーストによる日本語単語分割法を提案する. 日本語単語分割は, 入力文の各文字の間に単語区切りを置くか置かないかの問題とみなすことで, 分類問題として定式化できる. この分類問題を決定リストを利用して解くことで単語分割が行える. ここでは決定リストで利用する属性に辞書情報を含めない. そのためここでの単語分割は未知語の問題を受けないという長所がある. 更に単語分割を分類問題として解く場合, 近年研究の盛んなアダブーストの手法を適用できる. アダブーストを用いることで, 決定リストの精度を高めることができる. 実験では, 京大コーパス (約4万文) を利用して決定リストを作成した. この決定リストによる単語分割の正解率は97.52%であった. この値は、同じ訓練データから構築したtri-gramモデルに基づく単語分割法での正解率92.76%を大きく上回った. またアダブーストを利用することで精度が98.49%にまで向上させることができた. また作成した単語分割システムは未知語の検出能力が高いことも確認できた.

In this paper, we propose the new method of Japanese word segmentation by Adaboost using the decision list as the weak learner. The word segmentation is regarded as the classification problem of judging whether the word boundary exists between two characters or not. By solving the problem by the decision list method, we can conduct Japanese word segmentation. Our method has the advantage not to suffer the unknown word problem because we do not use dictionary information as an attribute of our decision list. Moreover, by taking this approach we can use Adaboost which is actively researched in the machine learning domain recently. Adaboost improves the precision of our decision list. In experiments, we built the decision list through Kyoto University Corpus (about 40K sentences). The precision of this decision list was 97.52%. This values was much higher than the precision of character based tri-gram model, 92.76%. By using Adaboost method, our precision was improved to 98.49%. Furthermore, our word segmentation system was excellent in detecting unknown words.

収録刊行物

  • 自然言語処理 = Journal of natural language processing

    自然言語処理 = Journal of natural language processing 8(2), 3-18, 2001-04-10

    一般社団法人 言語処理学会

参考文献:  13件中 1-13件 を表示

被引用文献:  8件中 1-8件 を表示

各種コード

  • NII論文ID(NAID)
    10008830386
  • NII書誌ID(NCID)
    AN10472659
  • 本文言語コード
    JPN
  • 資料種別
    ART
  • ISSN
    13407619
  • NDL 記事登録ID
    5759093
  • NDL 雑誌分類
    ZU8(書誌・図書館・一般年鑑--図書館・ドキュメンテーション・文書館)
  • NDL 請求記号
    Z21-B168
  • データ提供元
    CJP書誌  CJP引用  NDL  J-STAGE 
ページトップへ