複数決定リストの順次適用による文節まとめあげ Bunsetsu Identification With Sequential Use of Plural Decision Lists

この論文にアクセスする

この論文をさがす

著者

抄録

近年の高度情報化の流れにより, 自動車にも種々の情報機器が搭載されるようになり, その中で音声認識・合成の必要性が高まっている. 本研究は音声合成を行うための日本語解析の中で基本となる, 文節まとめあげに関する研究報告である. 従来の文節まとめあげは, 人手規則による手法と機械学習による手法の二つに大きく分けられる. 前者は, 長年の努力により非常に高い精度を得られているが, 入力データ形式が固定であるために柔軟性に欠け, 人手で規則を作成・保守管理するため多大な労力を要し, 車載情報機器へ実装するには問題が大きい. また後者は, それらの問題に柔軟に対処できるが, 精度を向上させるためにアルゴリズムが複雑化しており, その結果開発期間が延長するなどの問題が生じ, 車載情報機器には不向きである. そこで本研究は, 決定リストを用いる手法を発展させ, 複数の決定リストを順に適用するだけという非常に簡明な文節まとめあげの手法を提案する. 決定リストの手法は非常に単純であるが, それだけでは高い精度が得られない. そこで, 決定リストを一つではなく複数作成し, それぞれのリストを最適な順序に並べて利用することにより精度向上を図った. この結果, 京大コーパスの最初の10000文を学習コーパス, 残りの約10000文をテストコーパスとして実験を行ったところ, 非常に簡明な手法ながら, 99.38%という高い精度を得られた.

Recent information-oriented society becomes to need Car-Multi-Media systems.In the systems, speech recognition and synthesis systems are also necessary. We aimed to improve Bunsetsu Identification which is important for them. There are two types of traditional Bunsetsu Identification methods: one is a method which uses handmade rules and the other is a method which uses machine learning. The former has high accuracy rate, but there are some problems especially for Car-Multi-Media systems. For example, the method is not flexible because it needs fixed inputs, and the method needs a lot of efforts to keep identification rules because all rules are made by hand. The latter is robust for these problems, but the algorithms are much more complex to improve accuracy, so there are some problems for Car-Multi-Media systems. Therefore, we propose a new method that uses plural decision lists sequentially. The Decision List method is very simple, but it does not have very high accuracy rate. Then, we use not 'one' decision list but 'plural' decision lists 'sequentially'. We made some experiments using 10, 000 sentences as a training corpus, and 10, 000 sentences as a test corpus in Kyoto-University-Corpus. As the result, the accuracy rate was 99.38%.

収録刊行物

  • 自然言語処理 = Journal of natural language processing

    自然言語処理 = Journal of natural language processing 7(4), 229-246, 2000-10-10

    一般社団法人 言語処理学会

参考文献:  11件中 1-11件 を表示

被引用文献:  2件中 1-2件 を表示

各種コード

  • NII論文ID(NAID)
    10008830044
  • NII書誌ID(NCID)
    AN10472659
  • 本文言語コード
    JPN
  • 資料種別
    ART
  • ISSN
    13407619
  • NDL 記事登録ID
    5544308
  • NDL 雑誌分類
    ZU8(書誌・図書館・一般年鑑--図書館・ドキュメンテーション・文書館)
  • NDL 請求記号
    Z21-B168
  • データ提供元
    CJP書誌  CJP引用  NDL  J-STAGE 
ページトップへ