リカレントネットワークを用いた連続音声認識

柳谷尚寿, 高橋 治久, 富田 悦次

連続音声認識を行うためには、連続音声を音素などの認識の基本単位にセグメンテーションをしなければならない。現在、用いられている方法は任意のフレームを音素間の業界の候補であるとし、各候補点ごとにHMMと照合を行うため、処理時間がかかり、実時間処理が難しい。本報告ではリカレントニューラルネットワーク(RNN)を用いた連続音声認識の実現法を提案し、実験と検討を行った。本手法は音素単位での認識を行うようにRNNの学習を行うが、RNNが音素を認識する際、スペクトル包絡やホルマント周波数の遷移といった音響的特徴を利用するので、音素間の境界が自動的に決定され、ほぼ実時間で音素スポッティングが行える。また、ネットワークの内部を解析したところ、特定周波数成分の時間変化に反応するAMニューロンや、ホルマント周波数の遷移に強く反応するFMニューロンが形成されるなど、生体の聴覚と比較しても興味深い結果を得た。

リカレントネットワークを用いた連続音声認識

書誌事項

この論文をさがす

抄録

収録刊行物

被引用文献 (4)*注記

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

リカレントネットワークを用いた連続音声認識

書誌事項

この論文をさがす

抄録

収録刊行物

被引用文献 (4)*注記

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

参加プロジェクトリスト

詳細情報詳細情報について