Read/Search this Article
Abstract
本論文では重回帰隠れマルコフモデル(重回帰HMM)に基づく自然発話音声の発話様式識別と音声認識について検討する.重回帰HMMではモデルの各分布の平均パラメータをスタイルベクトルと呼ばれる低次元のベクトルの重回帰により表現する.スタイルベクトルの各次元はそれぞれ特定の発話様式の表出・強調度合を表しており,入力音声に対してスタイルベクトルを最尤推定することにより発話様式を識別することができる.また,スタイルベクトルを入力発話毎に推定し,推定されたスタイルベクトルによりモデルを更新することにより音声認識においてオンラインで音響モデルを入力音声の発話様式に適応することができる.日本語話し言葉コーパス(CSJ)による評価の結果,学習用の発話がごく少量の場合でも発話様式の識別率は十分高く,また音素認識実験においてもHMMの場合に比べ良好な結果が得られた.
This paper describes speaking style classification and speech recognition for spontaneous speech based on multiple-regression HMM (MRHMM). In MRHMM, the mean vector of each probability density function is given by multiple regression of a low-dimensional vector, called style vector. Each component of the style vector corresponds to the intensity of expressivity of speaking style variation, and the type of speaking style can be classified by estimating the style vector for input speech based on an ML criterion. Moreover, in spontaneous speech recognition, acoustic models are adapted on-line by updating model parameters using the estimated style vector for each input utterance. The performance evaluation using the Corpus of Spontaneous Japanese (CSJ) shows that a high classification rate is obtained even when the amount of available training data is very limited. The effectiveness of the proposed technique is also shown by a phoneme recognition experiment.
Journal
- IEICE technical report. Speech [List of Volumes]
-
IEICE technical report. Speech 109(139), 31-36, 2009-07-10 [Table of Contents]
The Institute of Electronics, Information and Communication Engineers