音声合成CHATRのしくみ

書誌事項

タイトル別名
  • Stages of processing in CHATR speech synthesis

この論文をさがす

抄録

CHATRは音声コーパスを用いて音声合成を生成する手法である。本手法は信号処理を施すことなく、音声波形に音響的・韻律的影響を付与する「ゲシュタルト」ラベリングによって適切な音声セグメントを選択する。CHATRは音声コーパスに情報を付与することにより、モデル依存ではなく、自然発話データから直接情報を得る。また、この手法により基本アルゴリズムを変えずに、異なる話者や異なる言語に適用する汎用的な音声合成が実現可能となった。本報告では音声コーパスを7段階の処理(音声収録、ラベリングや分析、圧縮や情報符号化、自動学習、韻律予測、単位選択、波形接続)によって連続発話音声データから合成音声を生成する方式を紹介する。
CHATR is a corpus-based method for producing speech synthesis, without signal processing, by selecting appropriate speech segments according to a Gestalt labeling which annotates prosodic as well as phonemic influences on the speech waveform. From an engineering point-of-view, the synthesiser is minimal, little more than an indexing device, but the labeling of speech variation in the natural data, rather than modeling it in the synthesiser, has enabled a generic approach to synthesis which easily adapts to new languages and to new speakers with little change to the basic algorithms. This paper describes seven stages of CHATR process-sing of a speech corpus for concatenative synthesis. They include recording, analyzing, encoding, training, predicting, selecting, and finally synthesising, or recreating novel speech using the voice of the corpus speaker according to parameters learnt during the analysis of the corpus.

収録刊行物

参考文献 (20)*注記

もっと見る

詳細情報 詳細情報について

  • CRID
    1574231877084457856
  • NII論文ID
    110003297028
  • NII書誌ID
    AN10013221
  • 本文言語コード
    en
  • データソース種別
    • CiNii Articles

問題の指摘

ページトップへ