書誌事項
- タイトル別名
-
- トウケイテキ ゲンゴ モデル ト N-best タンサク オ モチイタ ニホンゴケイタイソ カイセキホウ
- A Japanese Morphological Analysis Method Using a Statistical Language Model and an N - best Search Algorithm
- 自然言語処理
この論文をさがす
抄録
本論文では 統計的言語モデルとN-best探索アルゴリズムを用いた新しい日本語形態素解析法を提案する. 本方法は 未知語の確率モデルを持つことにより任意の日本語文を高精度に解析し 確率が大きい順に任意個の形態素解析候補を求められる. EDRコーパスの部分集合(約19万文 約470万語)を用いて言語モデルの学習を行い オープンテキスト100文に対してテストを行ったところ 単語分割の精度は第1候補で再現率94.6%適合率93.5% 上位五候補で再現率97.8%適合率88.3%であった.
We present a novel method for Japanese morphological analysis which uses a statistical language model and an N-best search algorithm. It has a probabilistic model for unknown words to parse unrestricted Japanese sentences accurately and it can get N-best morphological analysis hypotheses. When the statistical Japanese morphological analyzer was trained on the subset of the EDR corpus (about 190 thousand sentences, 4.7 million words) and tested on 100 sentences of open text, it achieved 94.6% recall and 93.5% precision for the top candidate, and 97.8% recall and 88.3% precision for the top five candidates.
収録刊行物
-
- 情報処理学会論文誌
-
情報処理学会論文誌 40 (9), 3420-3431, 1999-09-15
東京 : 情報処理学会
- Tweet
キーワード
詳細情報
-
- CRID
- 1050001337885344256
-
- NII論文ID
- 110002725063
-
- NII書誌ID
- AN00116647
-
- ISSN
- 18827764
- 03875806
-
- NDL書誌ID
- 4851453
-
- 本文言語コード
- ja
-
- 資料種別
- journal article
-
- データソース種別
-
- IRDB
- NDL
- CiNii Articles