変分ベイズ法に基づく声質変換  [in Japanese] Voice Conversion based on Variational Bayesian Method  [in Japanese]

Search this Article

Author(s)

    • 丸目 雅浩 MARUME Masahiro
    • 名古屋工業大学大学院 工学研究科 情報工学専攻 Department of Computer Science and Engineering, Nagoya Institute of Technology
    • 南角 吉彦 NANKAKU Yoshihiko
    • 名古屋工業大学大学院 工学研究科 情報工学専攻 Department of Computer Science and Engineering, Nagoya Institute of Technology
    • 酒向 慎司 [他] SAKO Shinji
    • 名古屋工業大学大学院 工学研究科 情報工学専攻 Department of Computer Science and Engineering, Nagoya Institute of Technology
    • 徳田 恵一 TOKUDA Keiichi
    • 名古屋工業大学大学院 工学研究科 情報工学専攻 Department of Computer Science and Engineering, Nagoya Institute of Technology
    • 北村 正 KITAMURA Tadashi
    • 名古屋工業大学大学院 工学研究科 情報工学専攻 Department of Computer Science and Engineering, Nagoya Institute of Technology

Abstract

音声合成の需要の高まりにより,多様な話者性や発話スタイルを持った音声の合成が望まれている.しかし,このような音声の合成には,話者や発話スタイルに応じてモデルを用意する必要があり現実的ではない.そこで,少量の学習データにより,多様な話者性を持つ音声の合成を可能とする混合ガウスモデル(GMM)に基づく声質変換が提案されている.しかし,従来のGMMに基づく声質変換では,尤度最大化(ML)基準によりモデルパラメータを点推定しているため,学習データが十分に得られない場合,モデルの推定精度が低下する可能性がある.そこで,GMMに基づく声質変換に変分ベイズ法を適用し,ベイズ基準による声質変換を行う.提案法では,ML基準に比べて,声質変換の音質と話者性において,品質向上が確認でき,推定精度の高いモデルが得られることがわかった.

It is desired a technique for synthesizing speech with various speaker characteristics and speaking styles, by increasing the demand of speech synthesis. However, a large amount of training data is required to construct the system for each characteristics and speaking style Voice conversion based on Gaussian Mixture Model (GMM) is one of techniques which can solve this problem. GMM is estimated from a small amount of training data based on the Maximarn Likelihood (ML) criterion. However, the GMM based voice conversion technique still suffers from the overfitting problem due to insufficient training data and a point estimation of the ML criterion. To improve this problem, we applied the varational Bayes method to the GMM based voice conversion. In experiments, it was confirmed that the proposed technique improves the quality of converted voice, because of its higher generalization ability than the conventional ML based approach.

Journal

  • IEICE technical report

    IEICE technical report 107(406), 247-252, 2007-12-13

    The Institute of Electronics, Information and Communication Engineers

References:  7

Codes

  • NII Article ID (NAID)
    110006595277
  • NII NACSIS-CAT ID (NCID)
    AN10013221
  • Text Lang
    JPN
  • Article Type
    ART
  • ISSN
    09135685
  • NDL Article ID
    9330379
  • NDL Source Classification
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL Call No.
    Z16-940
  • Data Source
    CJP  NDL  NII-ELS 
Page Top