名詞の類似表現拡張に基づくオープンドメイン音声質問応答システム用言語モデルの構築
書誌事項
- タイトル別名
-
- Open-domain Language Model Construction for Speech Driven Question Answering Employing Expansion with Similar Nouns
この論文をさがす
抄録
本論文では,オープンドメイン音声質問応答システム「一休」で用いる音声認識 言語モデル構築手法を提案する.「一休」は,幅広いトピックの比較的短い質問文をスマートフォン経由でユーザから受け取り,大規 模なWWWコーパスから答えを探して出力する.オープンドメインの質問を正確に音声認識することを可能にする言語モデルの構 築が課題となる.既存のドメインアダプテーションの手法と,名詞の分布類似度に基づくシードコーパスの拡張を組み合わせることで,低コストで高性能の言語モデルを作成した.500文のシードコーパスと6億文のWWWコーパスから41万語を網羅する言語モデルを作成した.WWWコーパスからランダムに抽出した文によって構築したベースライン言語モデルを単語誤り率で3.25%改善した.
This work presents a novel language model construction method for speech recognition, utilized with “Ikkyu”, an open-domain speech-based question answering system. Ikkyu accepts relatively short spoken questions concerning a large variety of topics as input through a smartphone, providing the answers retrieved from a large scale Web archive. Our challenge is to construct a language model that can accurately perform speech recognition of open domain questions with smartphones as input devices. We tackle this problem by combining an existing domain adaptation method and distributional word similarity. From 500 seed sentences and a corpus of 600 million Web pages we constructed a language model covering 413,000 words. We achieved an average improvement of 3.25 points in word error rate (WER) over a baseline model constructed from randomly sampled Web sentences.
収録刊行物
-
- 情報処理学会論文誌
-
情報処理学会論文誌 55 (7), 1695-1705, 2014-07-15
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1050845762834650368
-
- NII論文ID
- 110009806672
-
- NII書誌ID
- AN00116647
-
- ISSN
- 18827764
-
- Web Site
- http://id.nii.ac.jp/1001/00102166/
-
- 本文言語コード
- ja
-
- 資料種別
- journal article
-
- データソース種別
-
- IRDB
- CiNii Articles