確率的タグ付与コーパスからの言語モデル構築  [in Japanese] Language Model Estimation from a Stochastically Tagged Corpus  [in Japanese]

Access this Article

Search this Article

Author(s)

Abstract

確率的言語モデルは、仮名漢字変換や音声認識などに広く用いられている。パラメータは、コーパスの既存のツールによる処理結果から推定される。精度の高い読み推定ツールは存在しないため、結果として、言語モデルの単位を単語 (と品詞の組) とし、仮名漢字モデルを比較的小さい読み付与済みコーパスから推定したり、単語の発音の確率を推定せずに一定値としている。これは、単語の読みの確率を文脈と独立であると仮定していることになり、この仮定に起因する精度低下がある。このような問題を解決するために、本論文では、まず、仮名漢字変換において、単語と読みの組を単位とする言語モデルを利用することを提案する。単語と読みの組を単位とする言語モデルのパラメータは、自動単語分割および自動読み推定の結果から推定される。この処理過程で発生する誤りの問題を回避するために、本論文では、確率的タグ付与を提案する。これらの提案を採用するか否かに応じて複数の仮名漢字変換器を構築し、テストコーパスにおける変換精度を比較した結果、単語と読みの組を言語モデルの単位とし、そのパラメータを確率的に単語分割し、さらに確率的読みを付与したコーパスから推定することで最も高い変換精度となることが分かった。したがって、本論文で提案する単語と読みの組を単位とする言語モデルと、確率的タグ付与コーパスの概念は有用であると結論できる。In this paper, first we propose a language model based on pairs of word and input sequence. Then we propose the notion of a stochastically tagged corpus to cope with tag estimation errors. The experimental results we conducted using kana-kanji converters showed that our ideas, the language model based on pairs of word and input sequence and the notion of a stochastically tagged corpus, both improved the accuracy. Therefore we conclude that the language model based on pairs and the notion of a stochastically tagged corpus are effective in language modeling for the kana-kanji conversion task.

Journal

  • 研究報告自然言語処理(NL)

    研究報告自然言語処理(NL) 2010-NL-196(2), 1-7, 2010-05-20

References:  17

Codes

  • NII Article ID (NAID)
    110008003269
  • NII NACSIS-CAT ID (NCID)
    AN10115061
  • Text Lang
    JPN
  • Article Type
    Technical Report
  • ISSN
    09196072
  • Data Source
    CJP  NII-ELS  IPSJ 
Page Top