文字クラスモデルによる日本語単語分割  [in Japanese] A Japanese Word Segmenter by a Character Class Model  [in Japanese]

Access this Article

Search this Article

Author(s)

Abstract

日本語処理において, 単語の同定, すなわち文の単語分割は, 最も基本的かつ重要な処理である. 本論文では, 日本語文字のクラス分類により得られた文字クラスモデルを用いる新しい単語分割手法を提案する. 文字クラスモデルでは, 推定すべきパラメータ数が文字モデルより少ないという大きな利点があり, 文字モデルより頑健な推定を可能とする. したがって, 文字クラスモデルを単語分割へ適用した場合, 文字モデルよりもさらに頑健な未知語モデルとして機能することが期待できる. 文字クラスタリングの基準はモデルの推定に用いるコーパスとは別に用意したコーパスのエントロピーであり, 探索方法は貧欲アルゴリズムに基づいている. このため, 局所的にではあるが最適な文字のクラス分類がクラスの数をあらかじめ決めることなく得られる. ATR対話データベースを用いて評価実験を行った結果, 文字クラスモデルを用いた提案手法の単語分割精度は文字モデルによる精度より高く, 特に, 文字クラスを予測単位とする可変長<I>n</I>-gramクラスモデルではオープンテストにおいて再現率96.38%, 適合率96.23%の高精度を達成した.

Word segmentation, which segments an input sentence into words, is the most fundamental process of Japanese language processing. In this paper, we present a new method for Japanese word segmentation based on a character class model. The character class model is more robust than a character-based model because the number of parameters of the character class model is fewer than that of a character-based. model. The measurement for Japanese character clustering is the entropy on a corpus different from the corpus for model estimation and the search method is based on the greedy algorithm. For this reason, this clustering method gives us an optimum character classification without giving the number of classes. As the result of experiments on the ADD (ATR Dialogue Database) corpus, the proposed Japanese word segmenter using the character class model marked a higher accuracy than a character-based model. In particular, the proposed method using a variable-length <I>n</I>-gram class model achieved 96.38% recall and 96.23% precision for open text.

Journal

  • Journal of Natural Language Processing

    Journal of Natural Language Processing 6(7), 93-108, 1999-10-10

    The Association for Natural Language Processing

References:  11

Cited by:  6

Codes

  • NII Article ID (NAID)
    10008829564
  • NII NACSIS-CAT ID (NCID)
    AN10472659
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • ISSN
    13407619
  • NDL Article ID
    4888788
  • NDL Source Classification
    ZU8(書誌・図書館・一般年鑑--図書館・ドキュメンテーション・文書館)
  • NDL Call No.
    Z21-B168
  • Data Source
    CJP  CJPref  NDL  J-STAGE 
Page Top