言語的・音響的コンテキストが音声の聴取および認識に及ぼす影響の考察

この論文をさがす

抄録

大語彙連続音声認識(Large Vocabulary Continuous Speech Recognition; LVCSR) は読み上げ音声に関しては十分な性能を持つようになってきており,ディクテーションや字幕放送システムとして実用化されてきている.一方,対話や講演音声など自由発話の認識も期待されているものの,その性能はいまだに十分とはいえない.本稿では,人間の音響的知覚能力と,局所的なコンテキストを教示して音声を聞かせることで音響モデルとN-gram言語モデルによる音声認識をシミュレーションし,実際の音声認識システムと比較して各モデルの能力について評価を行った.結果から,言語モデルと比べ,より大きな情報量を持つと考えられる音響モデルの改善は,認識率に大きな影響を与える一方で,トライグラム言語モデルは十分に強力な表現能力を持っていることも明らかになった.

収録刊行物

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ