音声入力型情報検索におけるベイズリスク最小化音声認識のための単語重要度の自動推定

書誌事項

タイトル別名
  • Automatic Estimation of Word Importance for Minimum Bayes-risk Decoder in Spoken Query-based Information Retrieval

この論文をさがす

抄録

音声入力型の情報検索のためのベイズリスク最小化音声認識の研究を行う.音声入力型情報検索では,ベイズリスク最小化音声認識は検索に影響が大きい単語を重要視し,検索に致命的な音声認識誤りを避けることを目的として行われる.その際,検索への影響が大きい単語にその影響度を反映した重要度を設定することが重要であるものの,そのような重要度の自動決定手法はこれまでに存在しなかった.この問題に対し,本論文では,音声入力型情報検索における音声認識のための単語重要度の自動推定手法を提案する.具体的には,検索要求のテキストとその音声認識結果および検索の正解ラベルの3点を推定のための学習データとし,単語重要度を推定する手法を提案する.重要度推定用のデータについて,人手による準備を必要とする方法(教師あり推定),一部を必要としない方法(半教師あり推定),および必要としない方法(教師なし推定)のそれぞれを提案し,複数の検索システムを用いてそれらの有効性を調べた.教師ありおよび半教師あり推定の結果から提案する推定の枠組みが正しく動作をすることを示した.さらに教師なし推定の結果から,提案手法を用いることで音声入力型情報検索の音声認識にとって有効な重要度を決定できることを示した.

Minimum Bayes-risk (MBR) based automatic speech recognition (ASR) oriented for spoken query-based information retrieval (IR) is addressed. In a spoken query-based IR system, MBR decoding (ASR) is taken aiming to reduce fatal ASR errors on IR. For such ASR, although an importance should be assigned to each word according to its influence on IR, no automatic estimation methods of such importance are proposed. In this paper, we propose an automatic estimation of word importance, which requires 1) text queries, 2) corresponding spoken queries and their ASR results, and 3) list of documents to be retrieved (correct documents for each query). Three kinds of estimation methods are proposed; supervised, semi-supervised, and unsupervised methods, and they are evaluated with several IR systems. We confirmed that our method is reasonable from results of the supervised and the semi-supervised estimations, and confirmed that the unsupervised method can determine appropriate word importance for ASR of a spoken query-based IR.

収録刊行物

参考文献 (1)*注記

もっと見る

関連プロジェクト

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ