ピクセルベースアプローチによるHMMに基づいた唇動画像の生成  [in Japanese] Pixel-based Lip Movement Synthesis using HMMs  [in Japanese]

Search this Article

Author(s)

Abstract

隠れマルコフモデル(HMM)に基づき,任意の入カテキストから実画像に近い唇動画像を生成するシステムを提案する.我々がこれまでに提案してきたHMMに基づく音声合成法により,高品質なテキスト音声合成システムが実現されているが,これと同一の枠組みを,ピクセルベースの唇画像生成に適用する.音素単位でモデル化された唇動画像HMMを連結し,尤度最大化基準によりHMMの各状態から最適な画像系列を求める.この際,静的特徴量(唇の形状)のみでなく,動的特徴量(唇の動き)を考慮することにより,なめらかに変化する唇動画像を合成することができる.本研究では,新たに作成した日本語連続文章による大規模な唇動画像データベースを用いて,唇動画像合成システムを構築した.任意の入力テキストから合成された唇動画像では,実写画像に近い唇の動きを確認することができた.

This paper describes a pixel-based approach for synthesizing lip image sequence from an arbitrarily given text using Hidden Markov Model (HMM). In the training stage, context-dependent lip HMMs are trained and a decision tree based clustering technique is applied to them. To synthesize a lip movement, a sentence HMM is constructed by concatenating HMMs corresponding to the transcription for the given text. Then an optimun lip image sequence is obtained from the sentence HMM by using a maximum likeifood criterion. Experimental results show that the synthetic lip image sequence is smooth and realistic.

Journal

  • Technical report of IEICE. PRMU

    Technical report of IEICE. PRMU 99(450), 55-60, 1999-11-20

    The Institute of Electronics, Information and Communication Engineers

References:  14

Cited by:  1

Codes

  • NII Article ID (NAID)
    110003276103
  • NII NACSIS-CAT ID (NCID)
    AN10541106
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • ISSN
    09135685
  • NDL Article ID
    4934286
  • NDL Source Classification
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL Call No.
    Z16-940
  • Data Source
    CJP  CJPref  NDL  NII-ELS 
Page Top