形態素解析結果から過分割を検出する統計的尺度  [in Japanese] Statistical Measure for Detecting Over-Segmentations in Results of Japanese Morphological Analysis  [in Japanese]

Access this Article

Search this Article

Author(s)

    • 内山 将夫 UTIYAMA Masao
    • 信州大学工学部電気電子工学科 Department of Electrical and Electronic Engineering, Faculty of Engineering, Shinshu University

Abstract

本稿では, 形態素解析の結果から過分割 (正解が分割していないところを形態素解析システムが分割している個所) を検出するための統計的尺度を提案する. もし, 形態素解析の結果から過分割を検出できれば, それを利用して形態素解析結果の過分割を訂正する規則を作成できるし, 人手修正済みのコーパスで除去しきれていない過分割を発見し取り除くこともできるため, そのような尺度は有用である. 本稿で提案する尺度は文字列に関する尺度であり, 文字列が分割される確率と分割されない確率との比に基づいていて, 分割されにくい文字列ほど大きな値となる. したがって, この値が大きい文字列は過分割されている可能性が高い. 本稿の実験では, この尺度を使うことにより, 規則に基づく形態素解析システムの解析結果から, 高精度で過分割を検出できた. また, 人手で修正されたコーパスに残る過分割も検出できた. これらのことは, 提案尺度が, 形態素解析システムの高精度化に役立つこと, 及び, コーパス作成・整備の際の補助ツールとして役立つことを示している.

This paper proposes a statistical measure for detecting over-segmentations, which are errors in segmentation where a morphological analyzer segments places which should not be segmented, in results of Japanese morphological analysis. Such a measure is useful because we can use detected over-segmentations for creating error correction rules or for removing remaining errors in manually debugged corpora. The measure proposed in this paper is based on the ratio of the probability of a whole string to that of the string being segmented into two parts. Therefore, the value of the measure is high when a given string is rarely segmented into two parts. Consequently, a string rated high by the measure is likely to contain over-segmentations. In the experiments, the measure detected over-segmentations in the results of rulebased morphological analyzers very precisely and it also detected remaining oversegmentations in manually debugged corpora. These results show that the proposed measure is useful for developing high quality Japanese morphological analyzers and for developing/debugging corpora.

Journal

  • Journal of Natural Language Processing

    Journal of Natural Language Processing 6(7), 3-28, 1999-10-10

    The Association for Natural Language Processing

References:  25

Cited by:  2

Codes

  • NII Article ID (NAID)
    10008829496
  • NII NACSIS-CAT ID (NCID)
    AN10472659
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • ISSN
    13407619
  • NDL Article ID
    4888766
  • NDL Call No.
    Z21-B168
  • Data Source
    CJP  CJPref  NDL  J-STAGE 
Page Top