複数の言語モデル・言語理解方式を用いた音声理解の高精度化 Improving Speech Understanding Accuracy by Using Multiple Language Models and Language Understanding Methods

この論文にアクセスする

この論文をさがす

著者

    • 勝丸 真樹 KATSUMARU MASAKI
    • 京都大学大学院 情報学研究科 知能情報学専攻 Dept. of Intelligence Science and Technology, Graduate School of Informatics, Kyoto University
    • 中野 幹生 NAKANO MIKIO
    • (株)ホンダ・リサーチ・インスティチュート・ジャパン Honda Research Institute Japan Co., Ltd.
    • 駒谷 和範 [他] KOMATANI KAZUNORI
    • 京都大学大学院 情報学研究科 知能情報学専攻 Dept. of Intelligence Science and Technology, Graduate School of Informatics, Kyoto University
    • 高橋 徹 TAKAHASHI TORU
    • 京都大学大学院 情報学研究科 知能情報学専攻 Dept. of Intelligence Science and Technology, Graduate School of Informatics, Kyoto University
    • 尾形 哲也 OGATA TETSUYA
    • 京都大学大学院 情報学研究科 知能情報学専攻 Dept. of Intelligence Science and Technology, Graduate School of Informatics, Kyoto University
    • 奥乃 博 OKUNO HIROSHI G.
    • 京都大学大学院 情報学研究科 知能情報学専攻 Dept. of Intelligence Science and Technology, Graduate School of Informatics, Kyoto University

抄録

音声対話システムでは,学習データや発話によって適した言語モデル・言語理解方式が異なる. そのため最適なモデル・手法を選び音声理解部を構築することは容易でない.本稿は,複数の言語モデルと言語理解方式とを用いて複数の理解結果を得ることにより,それらから最も良い結果を選択したり,文脈理解部で複数の結果を扱える枠組みを提案する.本枠組みの一つの実装として,言語モデルは文法モデルと単語N-gramモデルの2 種類,言語理解方式はFST とWFST,キーフレーズスポッティングの3 種類を用いて,それらの任意の組合せを用いて音声理解を行い,それらの結果から,発話ごとに適した理解結果を動的に選択し,最終的な理解結果を得るような音声理解システムを構築した.評価実験の結果,単一の言語モデル・言語理解方式を用いたときと比較して言語理解精度を向上することがわかった.Optimal language models (LMs) and language understanding (LU) methods for spoken dialogue systems vary depending on available training data or utterances to handle. Finding their optimal combination is difficult because much data and expertise are required. We developed a framework for improving speech understanding accuracy under various situations by using multiple LMs and LU methods. As its experimental evaluation, We used two LMs such as grammar-based and statistical models, and three LU methods such as finite states transducer (FST), weighted FST (WFST) and keyphrase-spotting. Six speech understanding results are obtained by combining these models and methods, and the most appropriate one was dynamically selected by a decision tree for each utterance. We showed that our method improved speech understanding accuracy compared with those obtained from any combination of single LM and LU method.

Optimal language models (LMs) and language understanding (LU) methods for spoken dialogue systems vary depending on available training data or utterances to handle. Finding their optimal combination is difficult because much data and expertise are required. We developed a framework for improving speech understanding accuracy under various situations by using multiple LMs and LU methods. As its experimental evaluation, We used two LMs such as grammar-based and statistical models, and three LU methods such as finite states transducer (FST), weighted FST (WFST) and keyphrase-spotting. Six speech understanding results are obtained by combining these models and methods, and the most appropriate one was dynamically selected by a decision tree for each utterance. We showed that our method improved speech understanding accuracy compared with those obtained from any combination of single LM and LU method.

収録刊行物

  • 情報処理学会研究報告音声言語情報処理(SLP)

    情報処理学会研究報告音声言語情報処理(SLP) 2009(10(2009-SLP-075)), 45-50, 2009-01-30

    一般社団法人情報処理学会

参考文献:  16件中 1-16件 を表示

各種コード

  • NII論文ID(NAID)
    110007138939
  • NII書誌ID(NCID)
    AN10442647
  • 本文言語コード
    JPN
  • 資料種別
    Technical Report
  • ISSN
    09196072
  • NDL 記事登録ID
    10176845
  • NDL 雑誌分類
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL 請求記号
    Z14-1121
  • データ提供元
    CJP書誌  NDL  NII-ELS  IPSJ 
ページトップへ