重回帰HMMに基づく自然発話音声の発話様式識別(発音評価,認識,理解,対話,一般)  [in Japanese] Speaking Style Classification of Spontaneous Speech Using Multiple-Regression HMM  [in Japanese]

    • 能勢 隆 NOSE Takashi
    • 東京工業大学大学院総合理工学研究科物理情報システム専攻 Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
    • 松原 健 MATSUBARA Takeshi
    • 東京工業大学大学院総合理工学研究科物理情報システム専攻 Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
    • 井島 勇祐 IJIMA Yusuke
    • 東京工業大学大学院総合理工学研究科物理情報システム専攻 Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
    • 小林 隆夫 KOBAYASHI Takao
    • 東京工業大学大学院総合理工学研究科物理情報システム専攻 Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology

Abstract

本論文では重回帰隠れマルコフモデル(重回帰HMM)に基づく自然発話音声の発話様式識別と音声認識について検討する.重回帰HMMではモデルの各分布の平均パラメータをスタイルベクトルと呼ばれる低次元のベクトルの重回帰により表現する.スタイルベクトルの各次元はそれぞれ特定の発話様式の表出・強調度合を表しており,入力音声に対してスタイルベクトルを最尤推定することにより発話様式を識別することができる.また,スタイルベクトルを入力発話毎に推定し,推定されたスタイルベクトルによりモデルを更新することにより音声認識においてオンラインで音響モデルを入力音声の発話様式に適応することができる.日本語話し言葉コーパス(CSJ)による評価の結果,学習用の発話がごく少量の場合でも発話様式の識別率は十分高く,また音素認識実験においてもHMMの場合に比べ良好な結果が得られた.

This paper describes speaking style classification and speech recognition for spontaneous speech based on multiple-regression HMM (MRHMM). In MRHMM, the mean vector of each probability density function is given by multiple regression of a low-dimensional vector, called style vector. Each component of the style vector corresponds to the intensity of expressivity of speaking style variation, and the type of speaking style can be classified by estimating the style vector for input speech based on an ML criterion. Moreover, in spontaneous speech recognition, acoustic models are adapted on-line by updating model parameters using the estimated style vector for each input utterance. The performance evaluation using the Corpus of Spontaneous Japanese (CSJ) shows that a high classification rate is obtained even when the amount of available training data is very limited. The effectiveness of the proposed technique is also shown by a phoneme recognition experiment.

Journal

IEICE technical report. Speech   [List of Volumes]

IEICE technical report. Speech 109(139), 31-36, 2009-07-10  [Table of Contents]

The Institute of Electronics, Information and Communication Engineers

References:  14

You must have a user ID to see the references.If you already have a user ID, please click "Login" to access the info.New users can click "Sign Up" to register for an user ID.

Preview

Preview

Codes

  • NII Article ID (NAID) :
    110007358749
  • NII NACSIS-CAT ID (NCID) :
    AN10013221
  • Text Lang :
    JPN
  • Article Type :
    ART
  • ISSN :
    09135685
  • NDL Article ID :
    10306937
  • NDL Source Classification :
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL Call No. :
    Z16-940
  • Databases :
    CJP  NDL  NII-ELS 

Export