言語的・音響的コンテキストが音声の聴取および認識に及ぼす影響の考察

この論文にアクセスする

この論文をさがす

著者

抄録

大語彙連続音声認識(Large Vocabulary Continuous Speech Recognition; LVCSR) は読み上げ音声に関しては十分な性能を持つようになってきており,ディクテーションや字幕放送システムとして実用化されてきている.一方,対話や講演音声など自由発話の認識も期待されているものの,その性能はいまだに十分とはいえない.本稿では,人間の音響的知覚能力と,局所的なコンテキストを教示して音声を聞かせることで音響モデルとN-gram言語モデルによる音声認識をシミュレーションし,実際の音声認識システムと比較して各モデルの能力について評価を行った.結果から,言語モデルと比べ,より大きな情報量を持つと考えられる音響モデルの改善は,認識率に大きな影響を与える一方で,トライグラム言語モデルは十分に強力な表現能力を持っていることも明らかになった.

収録刊行物

  • 全国大会講演論文集

    全国大会講演論文集 2012(1), 617-619, 2012-03-06

    一般社団法人情報処理学会

キーワード

各種コード

  • NII論文ID(NAID)
    110009783657
  • NII書誌ID(NCID)
    AN00349328
  • 本文言語コード
    JPN
  • データ提供元
    NII-ELS 
ページトップへ