音声ドキュメント内容検索のためのWEBを用いたドキュメント拡張

書誌事項

タイトル別名
  • オンセイ ドキュメント ナイヨウ ケンサク ノ タメ ノ WEB オ モチイタ ドキュメント カクチョウ
  • Document Expansion Using WEB for Spoken Document Retrieval

この論文をさがす

抄録

音声ドキュメントの内容検索において,検索精度に影響する主な要因が音声認識誤りである.音声認識技術の改良により音声ドキュメントの認識を改善することができる.しかし,検索要求に未知語が含まれる場合は,その要求を満たす検索を行うことができない.そこで,本論文では,検索対象の音声ドキュメントの内容に関連するWEBページを収集し,それを用いて検索対象のドキュメント拡張を行う方法を提案する.テストコレクションを用いた実験では,WEBページによるドキュメント拡張は未知語の検索要求の場合に検索精度改善に効果があった.しかし,音声ドキュメントが持つ話題の多様性から,無関係なページも多く収集していることが確認できた.そこで,ドキュメントを内容ごとに分割し,分割されたセグメント単位でWEBページを集めることで,検索対象のドキュメントの内容により即したWEBページを収集する.これにより検索精度が改善でき,WEBページを用いたドキュメント拡張の効果が見られた.

In spoken document retrieval, the main factor affecting retrieval performance is speech recognition errors. Refining speech recognition technology can make improvement of speech recognition performance for spoken documents. However, if a query has out-of-vocabulary (OOV) words, we cannot get the spoken documents related to the query. This paper describes spoken document retrieval using document expansion based on WEB whose contents are similar to the spoken documents retrieved. The retrieval experiment showed that the document expansion worked well on OOV queries, but many irrelevant WEB pages were collected because of the variety of topics that spoken documents have. Therefore, each spoken document is automatically divided into some segments. And then, more similar WEB pages to the spoken document can be collected using the query derived from the segment. The improved document expansion achieved improvement of the spoken document retrieval performance.

収録刊行物

関連プロジェクト

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ