声質と歌唱スタイルを自動学習可能な歌声合成システム A trainable singing voice synthesis system capable of representing personal characteristics and singing styles

この論文にアクセスする

この論文をさがす

著者

    • 酒向慎司 SAKO SHINJI
    • 名古屋工業大学 大学院工学研究科 Department of Computer Science and Engineering, Nagoya Institute of Technology
    • 徳田 恵一 TOKUDA KEIICHI
    • 名古屋工業大学 大学院工学研究科 Department of Computer Science and Engineering, Nagoya Institute of Technology
    • 北村 正 KITAMURA TADASHI
    • 名古屋工業大学 大学院工学研究科 Department of Computer Science and Engineering, Nagoya Institute of Technology

抄録

声質や歌唱法など歌い手の特徴を歌声データと楽譜から自動学習し,それらを再現するような歌声合成システムについて述べる.本システムでは,歌い手の声質とピッチに関する特徴を確率モデルによる統一的な枠組みでモデル化している.特に,リズムやメロディといった音楽特有の表現要素が,音声信号のスペクトルや基本周波数パターンの変動に大きく関係していることから,楽譜から得られる音階や音長などを考慮したモデル化を行い,楽譜と歌詞を入力として,個人性を備えた歌声を合成するシステムを構築してきた.本手法の特徴は,このような歌声合成モデルを楽譜と歌声データから自動学習できることにある.本報告では,音楽固有のコンテキストの導入,実際の歌声データと楽譜の音符列の間のずれに着目した時間構造モデルについて検討する.実験では,童謡60曲の男性1名の歌声データを用いた歌声合成システムを構成し,ずれモデルの導入による自然性の向上が確認できた.We describe a trainable singing voice synthesis system, that can automatically learns the model parameters from singing voice waveform and musical scores by applying HMM-based speech synthesis technique. In this system, a sequence of spectrum and fundamental freqency (F0) are modeled simultaneously in a unified framework of HMM, and context dependent HMMs are constructed by taking account of contextual factors that affects singing voice. In addition, the distributions for spectral and F0 parameter are clustered independently by using a decision-tree based context clustering technique. Synthetic singing voice is generated from HMMs themselves by using parameter generation algorithm. We introduced an additional "time-lag" model to control start timing of each musical note. In the experiments, we confirmed that smooth and natural-sounding singing voice is synthesized. It is also maintains the characteristics and personality of the donor of the singing voice data for HMM training.

We describe a trainable singing voice synthesis system, that can automatically learns the model parameters from singing voice waveform and musical scores by applying HMM-based speech synthesis technique. In this system, a sequence of spectrum and fundamental freqency (FO) are modeled simultaneously in a unified framework of HMM, and context dependent HMMs are constructed by taking account of contextual factors that affects singing voice. In addition, the distributions for spectral and FO parameter are clustered independently by using a decision-tree based context clustering technique. Synthetic singing voice is generated from HMMs themselves by using parameter generation algorithm. We introduced an additional "time-lag" model to control start timing of each musical note. In the experiments, we confirmed that smooth and natural-sounding singing voice is synthesized. It is also maintains the characteristics and personality of the donor of the singing voice data for HMM training.

収録刊行物

  • 情報処理学会研究報告音楽情報科学(MUS)

    情報処理学会研究報告音楽情報科学(MUS) 2008(12(2008-MUS-074)), 39-44, 2008-02-08

    一般社団法人情報処理学会

参考文献:  17件中 1-17件 を表示

被引用文献:  2件中 1-2件 を表示

各種コード

  • NII論文ID(NAID)
    110006664847
  • NII書誌ID(NCID)
    AN10438388
  • 本文言語コード
    JPN
  • 資料種別
    Technical Report
  • ISSN
    09196072
  • データ提供元
    CJP書誌  CJP引用  NII-ELS  IPSJ 
ページトップへ