Read/Search this Article
Abstract
隠れマルコフモデルに基づく音声合成方式を歌声合成に拡張することにより構築した歌声合成システムについて述べる.本システムでは,歌い手の声の質と基本周波数パターンに関する特徴をモデル化するため,スペクトルと基本周波数パターンをHMMにより同時にモデル化している.特に,自然な歌声を合成するうえで重要な要素となる音符の音階や音長の基本周波数パターンヘの影響を精度良くモデル化するため,楽譜から得られる音階と音長を考慮したコンテキスト依存モデルを構築している.これらのモデルに対して決定木によるコンテキストクラスタリングを行うことで,未知の楽曲からの歌声合成が可能となっている.実験から,歌い手の特徴を再現し歌声の合成が可能であることを示す.
We describe a singing voice synthesis system by applying HMM-based speech synthesis technique. In this system, a sequence of spectrum and FO are modeled simultaneously in a unified framework of HMM, and context dependent HMMs are constructed by taking account of contextual factors that affects singing voice. In addition, the distributions for spectral and FO parameter are clustered independently by using a decision-tree based context clustering technique. Synthetic singing voice is generated from HMMs themselves by using parameter generation algorithm. In the experiments, we confirmed that smooth and natural-sounding singing voice is synthesised. It is also maintains the characteristics and personality of the donor of the singing voice data for HMM training.
Journal
- Transactions of Information Processing Society of Japan [List of Volumes]
-
Transactions of Information Processing Society of Japan 45(3), 719-727, 2004-03-15 [Table of Contents]
Information Processing Society of Japan (IPSJ)