統計的言語モデルとN - best探索を用いた日本語形態素解析法

書誌事項

タイトル別名
  • トウケイテキ ゲンゴ モデル ト N-best タンサク オ モチイタ ニホンゴケイタイソ カイセキホウ
  • A Japanese Morphological Analysis Method Using a Statistical Language Model and an N - best Search Algorithm
  • 自然言語処理

この論文をさがす

抄録

本論文では 統計的言語モデルとN-best探索アルゴリズムを用いた新しい日本語形態素解析法を提案する. 本方法は 未知語の確率モデルを持つことにより任意の日本語文を高精度に解析し 確率が大きい順に任意個の形態素解析候補を求められる. EDRコーパスの部分集合(約19万文 約470万語)を用いて言語モデルの学習を行い オープンテキスト100文に対してテストを行ったところ 単語分割の精度は第1候補で再現率94.6%適合率93.5% 上位五候補で再現率97.8%適合率88.3%であった.

We present a novel method for Japanese morphological analysis which uses a statistical language model and an N-best search algorithm. It has a probabilistic model for unknown words to parse unrestricted Japanese sentences accurately and it can get N-best morphological analysis hypotheses. When the statistical Japanese morphological analyzer was trained on the subset of the EDR corpus (about 190 thousand sentences, 4.7 million words) and tested on 100 sentences of open text, it achieved 94.6% recall and 93.5% precision for the top candidate, and 97.8% recall and 88.3% precision for the top five candidates.

収録刊行物

被引用文献 (15)*注記

もっと見る

参考文献 (26)*注記

もっと見る

キーワード

詳細情報

問題の指摘

ページトップへ