高精度な音声入力質問応答のための疑問表現補完

書誌事項

タイトル別名
  • コウセイドナ オンセイ ニュウリョク シツモン オウトウ ノ タメノ ギモン ヒョウゲン ホカン
  • Recovering Interrogative Phrases for Effective Speech Input Question Answering
  • 音声質問応答

この論文をさがす

抄録

音声入力を備えた質問応答検索システムでの誤認識に対するロバスト性向上のために,質問応答検索で重要となる疑問表現を補完する手法を提案する.我々がこれまで開発を行ってきた質問応答型マルチモーダルヘルプシステムに適用し,本手法の有効性を検証する.このシステムでは,ユーザの質問内容を理解し,ユーザが必要としている情報に対して的確に回答する質問応答技術を備えている.また,マルチモーダルコンテンツ検索技術を備え,映像・音声・取扱説明文などで構成される表現力豊かな回答を行うこともできる.これら2 つの技術を融合することにより,より分かりやすい情報提供を実現している.たとえば,数量などを尋ねるFactoid 型の質問が入力されると,取扱説明書から質問応答検索により適切な回答が検索される.これに対し,方法などを尋ねるHow 型の質問が入力されると,あらかじめ蓄積されたビデオデータベースから適切な説明ビデオを検索して表示することができる.しかし,最初のプロトタイプシステムでは音声認識誤りの影響により,検索処理がうまくいかず,適切な回答ができない場合があった.たとえば,具体的な時間や量をきくFactoid 型の質問は,音声認識誤りによって疑問表現の情報が失われて,Factoid 型の質問だと認識できなくなる.そこで我々は,音声認識誤りに対するロバスト性向上を目的とし,回答タイプが正しく判定されるように,音声認識結果を補完して検索する手法を開発した.本手法では,あらかじめ用意した疑問表現で音声認識結果を補完する.取扱説明書と音声認識結果との共起関係により候補を絞り込み,音声認識結果の発音の類似度を計算することにより補完する疑問表現を選択する.この手法によりFactoid 型質問において平均逆数順位精度(MRR)が0.429 から0.597 に向上した.

This paper proposes a novel method to improve retrieval accuracy in question answering with speech input by adding interrogative phrases to the search query based on co-occurrence of search terms in the query and interrogative phrases. We apply this method to a multimodal help system and prove the effectiveness through an experiment. In our previous work, we developed a prototype of a speech-input help system for home appliances such as digital cameras and microwave ovens. Given a factoid question, the system performs textual question answering using the manuals as the knowledge source. Whereas, given a How question, it retrieves and plays a demonstration video. However, our first prototype suffered from speech recognition errors, especially when the Japanese interrogative phrases in factoid questions were misrecognized. To solve this problem the system supplements the speech query transcript with an interrogative phrase selected from a pre-determined list. The selection process first narrows down candidate phrases based on co-occurrences within the manual text, and then computes the similarity between each candidate and the query transcript in terms of pronunciation. Our method improves the Mean Reciprocal Rank of top three answers from 0.429 to 0.597 for factoid questions.

収録刊行物

参考文献 (27)*注記

もっと見る

詳細情報

問題の指摘

ページトップへ