N-gram モデルを用いた音声合成のための読みおよびアクセントの同時推定


  • N gram モデル オ モチイタ オンセイ ゴウセイ ノ タメ ノ ヨミ オヨビ アクセント ノ ドウジ スイテイ
  • An N-gram-based Approach to Phoneme and Accent Estimation for TTS
  • 音声言語



本論文では,規則音声合成における読みとアクセントを,確率モデルに基づき同時に推定する手法を提案する.規則音声合成において,任意の入力テキストに対し,正しい音韻情報と韻律情報を生成することは,自然な合成音声を得るための基本的な要件である.本研究では,入力テキストに対し,最も基本的な音韻情報と韻律情報である読みとアクセントを付与する問題を取り扱う.日本語の場合,入力テキストは一般的に漢字仮名交じり文であり,複数の読み候補から正しい読みを推定する必要があるとともに,その読みに対して正しいアクセントを推定する必要がある.従来,日本語テキストに対しては,形態素解析・読み付与・アクセント句決定・アクセント核決定,という手順を段階的に行うことで,読みとアクセントを決定していたが,本研究では,表層(単語境界)・品詞・読み・アクセントの4 つ組を1 つの単位と見なし,N-gram モデルを用いて同時に推定する.実験では,従来手法である(1) ルールに基づきアクセント句およびアクセント核を決定する手法,(2) 逐次的に読みおよびアクセントを決定する手法,との比較を行った.その結果,提案手法による読みおよびアクセント付与の精度が従来手法の精度を上回った.

We present a new stochastic approach to accurately estimate phonemes and pitch accents for a Japanese TTS (Text-to-Speech) system. The front-end process of a TTS system assigns phonemes and pitch accents to an input plain text, which is critical for creating intelligible and natural speech. Rule-based approaches that build hierarchical structures are widely used for this purpose. However, rule-based approaches have well known limitations in their scalability and the ease of domain adaptation. In this paper, we present a stochastic method based on an N-gram model for phoneme and pitch accent estimation. The proposed method estimates not only phonemes and pitch accents, but simultaneously predicts the word segmentation and part-of-speech (POS). In our experiments, we compared our methods with (1) a rule-based accentuation, and (2) a method using sequential estimation for phonemes and pitch accents, with promising results.


被引用文献 (8)*注記


参考文献 (12)*注記


詳細情報 詳細情報について

