HMMに基づいた視聴覚テキスト音声合成-画像ベースアプローチ HMM-Based Audio-visual Speech Synthesis-Pixel-based Approach

この論文にアクセスする

この論文をさがす

著者

    • 酒向慎司 SAKO Shinji
    • 名古屋工業大学大学院工学研究科 Department of Computer Science, Nagoya Institute of Technology
    • 益子 貴史 [他] MASUKO Takashi
    • 東京工業大学大学院総合理工学研究科 Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
    • 小林 隆夫 KOBAYASHI Takao
    • 東京工業大学大学院総合理工学研究科 Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology

抄録

隠れマルコフモデル(HMM)に基づき,任意の入力テキストから実画像に近い唇動画像を生成するシステムを提案する.我々がこれまでに提案してきたHMMに基づく音声合成法により,高品質なテキスト音声合成システムが実現されているが,この枠組みを,画像ベースアプローチによる唇画像生成に適用する.これによりテキストから,同期した音声と唇動画像の生成が可能であることを示す.本手法の特徴として,主成分分析によって得られる固有唇を利用して,唇パラメータの次元圧縮を行っている.合成システムでは,連結された唇動画像HMMから尤度最大化基準により最適な唇パラメータ系列を求める.この際,静的特徴量(唇の形状)のみでなく,動的特徴量(唇の動き)を考慮することにより,連続的に変化する唇パラメータ系列が生成され,それに基づいて,なめらかに変化する唇動画像を合成することができる.This paper describes a technique for text-to-audio-visual speechsynthesis based on hidden Markov models (HMMs), in which lip imagesequences are modeled based on pixel-based approach. To reduce the dimensionality of visual speech feature space, we obtain a set of orthogonal vectors (eigenlips) by principal components analysis (PCA), and use a subset of the PCA coefficients and their dynamic featuresas visual speech parameters.Auditory and visual speech parameters are modeled by HMMs separately, and lip movements are synchronized with auditory speech by usingphoneme boundaries of auditory speech for synthesizing lip imagesequences.We confirmed that the generated auditory speech and lip image sequences are realistic and synchronized naturally.

This paper describes a technique for text-to-audio-visual speech synthesis based on hidden Markov models (HMMs), in which lip image sequences are modeled based on pixel-based approach. To reduce the dimensionality of visual speech feature space, we obtain a set of orthogonal vectors (eigenlips) by principal components analysis (PCA), and use a subset of the PCA coefficients and their dynamic features as visual speech parameters. Auditory and visual speech parameters are modeled by HMMs separately, and lip movements are synchronized with auditory speech by using phoneme boundaries of auditory speech for synthesizing lip image sequences. We confirmed that the generated auditory speech and lip image sequences are realistic and synchronized naturally.

収録刊行物

  • 情報処理学会論文誌

    情報処理学会論文誌 43(7), 2169-2176, 2002-07-15

    一般社団法人情報処理学会

参考文献:  17件中 1-17件 を表示

被引用文献:  3件中 1-3件 を表示

各種コード

  • NII論文ID(NAID)
    110002771198
  • NII書誌ID(NCID)
    AN00116647
  • 本文言語コード
    JPN
  • 資料種別
    Journal Article
  • ISSN
    1882-7764
  • NDL 記事登録ID
    6220693
  • NDL 雑誌分類
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL 請求記号
    Z14-741
  • データ提供元
    CJP書誌  CJP引用  NDL  NII-ELS  IPSJ 
ページトップへ