確率的単語分割コーパスからの単語N-gram 確率の計算

書誌事項

タイトル別名
  • カクリツテキ タンゴ ブンカツ コーパス カラ ノ タンゴ N gram カクリツ ノ ケイサン
  • Word N-gram Probability Calculation from a Stochastically Segmented Corpus
  • 音声言語

この論文をさがす

抄録

確率的言語モデルは,音声認識やスペルチェッカなどの言語処理において重要な役割を担っている.最も一般的な確率的言語モデルは単語n-gram モデルであるが,実用的な予測力を実現するには,正しく単語に分割された対象分野のコーパスが大量に必要である.日本語では単語境界は明示されないので,自動単語分割による推定結果を人手で修正する.これには,対象分野の語彙の知識を有する作業者があたる必要があり,多大な時間とコストがかかる.この問題を解決するために,本論文では,文字列である生コーパスに各文字間に単語境界が存在する確率を付与した「確率的単語分割コーパス」という概念を提案し,確率的単語分割コーパスからの単語n-gram 確率の計算について述べる.この方法の有用性を評価するために,確率的言語モデルにおける昨今の課題である分野適応の実験を行い,既存手法に対する優位性を示した.

Statistical language modeling plays an important role in a state-of-the-art language processing system, such as speech recognizer, spelling checker, etc. The most popular language model (LM) is word n-gram model, which needs sentences annotated with word boundary information. In various Asian languages, however, words are not delimited by whitespace, so we need to annotate sentences with word boundary information to prepare a statistically reliable large corpus. In this paper, we present the concept of a stochastically segmented corpus, which consists of a raw corpus and word boundary probabilities, and a method for calculating word n-gram probabilities from a stochastically segmented corpus. In the experiment, our method is applied to a LM adaptation problem and showed an advantage to an existing method.

収録刊行物

被引用文献 (8)*注記

もっと見る

参考文献 (8)*注記

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ