楽曲検索システムにおけるプレイリストに適応した音響モデル構築手法に関する検討 Constructing Acoustic Model for User-specific Song List in a Music Retrieval System

この論文にアクセスする

この論文をさがす

著者

抄録

本論文では楽曲検索システムの音声インタフェースに適用するための与えられた認識語彙集合に最適なHMM音響モデルを学習するための手法について述べる。本論文が対象とする楽曲検索アプリケーションにおいては各ユーザ毎にHMM音響モデルをカスタマイズすることが重要である、なぜなら、1) 楽曲名やアーティスト名には一般的なテキスト読み上げコーパスには出現しないような音韻コンテキストが存在すること、2) ユーザによって蓄積している音楽が異なっていること、が理由としてあげられる。特に、認識語彙集合に対して最適な状態共有構造を探すということは音響モデルの学習における新しい問題である。そこで本研究では100名以上の話者による合成音声を用いてタスクに関連した語彙発話を生成しタスク依存音響モデルを構築する手法を提案する。フィールドテストによる評価実験の結果、提案手法により作成したタスク依存音響モデルはタスク非依存音響モデルに比べて約10%の単語誤り削減率を達成することを確認した。This paper discusses a training method for the HMM acoustic model that efficiently cover the given vocabulary in order to apply it to the speech interface of a music retrieval system. Customizing the acoustic model to each user is important in this application because 1) song titles and artist names contain many phonetic contexts that are rare in general, e.g. text reading corpora, and 2) the songs  stored in a device are different among users. In particular, finding an optimal state-tying structure for the given vocabulary is a new problem in acoustic model training. We propose a method for building a task-dependent acoustic model that uses task-related synthetic utterances of more than one hundred speakers by means of HMM-based speech synthesis. From the experimental evaluation using field test data, we confirmed that the task-dependent acoustic model trained by the proposed method can reduce word error rate by 10% compared to a task-independent model.

This paper discusses a training method for the HMM acoustic model that efficiently cover the given vocabulary in order to apply it to the speech interface of a music retrieval system. Customizing the acoustic model to each user is important in this application because 1) song titles and artist names contain many phonetic contexts that are rare in general, e.g. text reading corpora, and 2) the songs stored in a device are different among users. In particular, finding an optimal state-tying structure for the given vocabulary is a new problem in acoustic model training. We propose a method for building a task-dependent acoustic model that uses task-related synthetic utterances of more than one hundred speakers by means of HMM-based speech synthesis. From the experimental evaluation using field test data, we confirmed that the task-dependent acoustic model trained by the proposed method can reduce word error rate by 10% compared to a task-independent model.

収録刊行物

  • 情報処理学会研究報告音声言語情報処理(SLP)

    情報処理学会研究報告音声言語情報処理(SLP) 2007(75(2007-SLP-067)), 87-90, 2007-07-21

    一般社団法人情報処理学会

参考文献:  13件中 1-13件 を表示

各種コード

  • NII論文ID(NAID)
    110006381955
  • NII書誌ID(NCID)
    AN10442647
  • 本文言語コード
    JPN
  • 資料種別
    Technical Report
  • ISSN
    09196072
  • NDL 記事登録ID
    8858086
  • NDL 雑誌分類
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL 請求記号
    Z14-1121
  • データ提供元
    CJP書誌  NDL  NII-ELS  IPSJ 
ページトップへ