音声合成における声質再現性の分析と評価 (音声) Analysis and Evaluation of Voice Quality Similarity for Speech Synthesis

この論文をさがす

著者

抄録

HMM音声合成で用いられる話者モデルは音声データからの学習によって作成されるが,学習話者によって話者性の再現度合に差が生じる.声質再現性の高い話者モデルを安定して作成するには,HMM音声合成における性質再現性の分析や評価が重要である.本研究ではまず,自然音声と合成音声を聴き比べ声質再現性を評価する聴取実験を行った.聴取実験では相対的な評価を行うことにより安定した評価結果を得た.得られた評価値を用いて,どの要因が再現性に影響を与えるかについての検討を行い,声質再現性の劣化が分析合成の時点で起こっていたことを明らかにした.さらに,人間の知覚結果に近い声質類似度を自動推定するための方法として,多次元尺度構成法と重み付きユークリッド距離を用いる2つの手法を提案する.重み付きユークリッド距離を用いた手法では,話者間の重み付き物理距離と聴取実験で得た声質類似度との間に最大0.64の相関を得た.

The HMM-based speech synthesizer generates synthetic speech based on a speaker model which is trained from speech data. The similarity of voice qualiry between natural and synthetic speech is depended on a speaker. Analysis and evaluation of voice quality similarity is important to make a speaker model which generates speech with voice quality of a target speaker. In this study, voice quality similarity was evaluated by a listening test which compares natural and synthetic speech. In the listening test, consistent results were obtained by relative evaluation. We investigated factors affecting voice quality similarity using the results of the listening test, which revealed that vocoding process deteriorates voice quality similarity. In addition, we propose two methods of automatic prediction of voice quality similarity using Multi Dimensional Scaling (MDS) and weighted Euclidean distance. The method based on weighted Euclidean distance gave a correlation of 0.64 between voice quality similarities obtained in the listening test and predicted values.

収録刊行物

  • 電子情報通信学会技術研究報告 : 信学技報

    電子情報通信学会技術研究報告 : 信学技報 111(322), 61-66, 2011-11-28

    一般社団法人電子情報通信学会

各種コード

  • NII論文ID(NAID)
    110009466556
  • NII書誌ID(NCID)
    AN10013221
  • 本文言語コード
    JPN
  • ISSN
    0913-5685
  • NDL 記事登録ID
    023369803
  • NDL 請求記号
    Z16-940
  • データ提供元
    NDL  NII-ELS 
ページトップへ