形態素解析結果から過分割を検出する統計的尺度 Statistical Measure for Detecting Over-Segmentations in Results of Japanese Morphological Analysis

この論文にアクセスする

この論文をさがす

著者

    • 内山 将夫 UTIYAMA Masao
    • 信州大学工学部電気電子工学科 Department of Electrical and Electronic Engineering, Faculty of Engineering, Shinshu University

抄録

本稿では, 形態素解析の結果から過分割 (正解が分割していないところを形態素解析システムが分割している個所) を検出するための統計的尺度を提案する. もし, 形態素解析の結果から過分割を検出できれば, それを利用して形態素解析結果の過分割を訂正する規則を作成できるし, 人手修正済みのコーパスで除去しきれていない過分割を発見し取り除くこともできるため, そのような尺度は有用である. 本稿で提案する尺度は文字列に関する尺度であり, 文字列が分割される確率と分割されない確率との比に基づいていて, 分割されにくい文字列ほど大きな値となる. したがって, この値が大きい文字列は過分割されている可能性が高い. 本稿の実験では, この尺度を使うことにより, 規則に基づく形態素解析システムの解析結果から, 高精度で過分割を検出できた. また, 人手で修正されたコーパスに残る過分割も検出できた. これらのことは, 提案尺度が, 形態素解析システムの高精度化に役立つこと, 及び, コーパス作成・整備の際の補助ツールとして役立つことを示している.

This paper proposes a statistical measure for detecting over-segmentations, which are errors in segmentation where a morphological analyzer segments places which should not be segmented, in results of Japanese morphological analysis. Such a measure is useful because we can use detected over-segmentations for creating error correction rules or for removing remaining errors in manually debugged corpora. The measure proposed in this paper is based on the ratio of the probability of a whole string to that of the string being segmented into two parts. Therefore, the value of the measure is high when a given string is rarely segmented into two parts. Consequently, a string rated high by the measure is likely to contain over-segmentations. In the experiments, the measure detected over-segmentations in the results of rulebased morphological analyzers very precisely and it also detected remaining oversegmentations in manually debugged corpora. These results show that the proposed measure is useful for developing high quality Japanese morphological analyzers and for developing/debugging corpora.

収録刊行物

  • 自然言語処理 = Journal of natural language processing

    自然言語処理 = Journal of natural language processing 6(7), 3-28, 1999-10-10

    一般社団法人 言語処理学会

参考文献:  25件中 1-25件 を表示

被引用文献:  2件中 1-2件 を表示

各種コード

  • NII論文ID(NAID)
    10008829496
  • NII書誌ID(NCID)
    AN10472659
  • 本文言語コード
    JPN
  • 資料種別
    ART
  • ISSN
    13407619
  • NDL 記事登録ID
    4888766
  • NDL 雑誌分類
    ZU8(書誌・図書館・一般年鑑--図書館・ドキュメンテーション・文書館)
  • NDL 請求記号
    Z21-B168
  • データ提供元
    CJP書誌  CJP引用  NDL  J-STAGE 
ページトップへ