統計的音声生成モデルに基づく任意話者の調音運動の逆推定 Speech Inversion for Arbitrary Speaker Using a Stochastic Speech Production Model

Search this Article

Author(s)

    • 廣谷 定男 HIROYA Sadao
    • 日本電信電話株式会社 NTT コミュニケーション科学基礎研究所/CREST,JST NTT Communication Science Laboratories, NTT Corporation / CREST, JST
    • 誉田 雅彰 HONDA Masaaki
    • 日本電信電話株式会社 NTT コミュニケーション科学基礎研究所/CREST,JST NTT Communication Science Laboratories, NTT Corporation / CREST, JST

Abstract

本論文では、統計的音声生成モデルに基づく、任意話者の音声からの調音運動の逆推定法を提案する。本モデルは、音素毎に作られる調音運動に対するHMM(隠れマルコフモデル)と、HMMの各ステート毎に調音パラメータを音響パラメータに変換する調音・音響マッピングにより構成される。また、モデルは、磁気センサシステムを用いた連続発声の調音運動と音声の同時観測データにより統計的に作成される。本論文では、与えられた音声から上記モデルの調音・音響マッピングを適応する手法を提案し、その有効性を示す。

We present a method of speech inversion for arbitrary speakers that uses a stochastic speech production model. The stochastic speech production model consists of HMMs (Hidden Markov Models) of articulatory parameters for each phoneme and an articulatory-to-acoustic mapping that transforms the articulatory parameters into a speech spectrum for each HMM state. The model was constructed by using an electro-magnetic articulographic (EMA) system. We propose an adaptation method, by which the articulatory-to-acoustic mapping is modified to unknown speaker. By applying the adaptation method, we evaluated the RMS error between estimated articulatory parameters and the observed ones.

Journal

  • IEICE technical report. Speech

    IEICE technical report. Speech 103(155), 9-14, 2003-06-27

    The Institute of Electronics, Information and Communication Engineers

References:  7

Codes

  • NII Article ID (NAID)
    110003295654
  • NII NACSIS-CAT ID (NCID)
    AN10013221
  • Text Lang
    ENG
  • Article Type
    ART
  • ISSN
    09135685
  • NDL Article ID
    6645940
  • NDL Source Classification
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL Call No.
    Z16-940
  • Data Source
    CJP  NDL  NII-ELS 
Page Top