ニュース音声認識のための言語モデルと音響モデルの検討

書誌事項

タイトル別名
  • Language Modeling and Acoustic Modeling for Automatic Transcription of Japanese Broadcast-News Speech

この論文をさがす

抄録

本稿では, 放送ニュース音声認識における言語モデルおよび音響モデルについて検討した結果について報告する.我々はこれまで, 単語(形態素)n-gram言語モデルと環境依存音素HMMを用いた大語彙連続音声認識システムによる放送ニュース音声の認識について検討を進めてきた.これまでの言語モデルでは, 単語の読みが異なっていても表記や品詞が同じであれば同じエントリとして扱ってきたが, 今回, 表記が同じであっても読みの異なる単語は異なるエントリとして扱う読み依存言語モデルを構築した.放送ニュースでは, 同じ話者が数文続けて発声することが多いため, 入力音声の話者を識別しながら音響モデルを適応していくオンライン即時・逐次型話者適応について検討した.読み依存言語モデルを用いることにより単語誤り率が約10%改善され, オンライン話者適応を行うことにより単語誤り率が約15%改善されることが確認された.さらに, 従来の音声認識で用いられている音響パラメータ系列に対して単語系列の事後確率を最大化する基準に対して, 音響パラメータ系列に対して発声内容の事後確率を最大化する意図駆動音声認識を提案し, N-best候補の再評価に適用することでその効果を確認した.

収録刊行物

参考文献 (14)*注記

もっと見る

詳細情報

  • CRID
    1573105977276205312
  • NII論文ID
    110003278451
  • NII書誌ID
    AN10091225
  • 本文言語コード
    ja
  • データソース種別
    • CiNii Articles

問題の指摘

ページトップへ