音声情報案内システムにおけるBag-of-Wordsを特徴量とした無効入力の棄却 Invalid Input Rejection Using Bag-of-Words for Speech-Oriented Guidance System

この論文にアクセスする

この論文をさがす

抄録

実環境音声情報案内システムでは,雑音等の非音声やユーザ同士の背景会話など,システムへの入力として不適切な入力が存在する.これらの入力はシステムの誤作動・誤認識の原因となるので,無効入力として棄却して応答処理を行わないことが重要である.一般に,有効入力と無効入力との識別にはGMM (Gaussian Mixture Model) による方法など,音響的な情報に基づく方法が用いられることが多い.しかし,入力データに含まれる言語的な情報を使うことにより,システムのタスクも考慮した,より高精度な有効入力と無効入力の識別が可能になると考えられる.そこで本論文では,音声認識結果から得られるBag-of-Words (BOW) を特徴量として,サポートベクターマシン(SVM)および最大エントロピー法を用いた無効入力の識別を検討した.実環境音声情報案内システム「たけまるくん」の入力データを用いた実験では,GMMを用いたSVMによる無効入力の識別と較べ,F尺度を81.73%から83.61%に改善することができた.また,BOW,GMMによる音響尤度,発話時間,SNRを組み合わせた場合,F尺度を86.57%まで改善することができた.On a real environment speech-oriented information guidance system, a valid and invalid input discrimination is important as invalid inputs such as noise, laugh, cough and utterances between users lead to unpredictable system responses. Generally, acoustic features are used for discrimination. Comparing acoustic likelihoods of GMMs (Gaussian Mixture Models) from speech data and noise data is one of the typical methods. In addition to that, using linguistic features is considered to improve discrimination accuracy as it reflects the task-domain of invalid inputs and meaningless recognition results from noise inputs. In this paper, we introduce Bag-of-Words (BOW) as a feature to discriminate between valid and invalid inputs. Support vector machine (SVM) and maximum entropy method (ME) are also employed to realize robust classification. We experimented the methods using real environment data obtained from the guidance system "Takemaru-kun." By applying BOW on SVM, the F-measure is improved to 83.61%, from 81.73% when using GMMs. In addition, experiments using features combining BOW with acoustic likelihoods from GMMs, Duration and SNR were conducted, improving the F-measure to 86.57%.

収録刊行物

  • 研究報告音声言語情報処理(SLP)

    研究報告音声言語情報処理(SLP) 2012-SLP-92(7), 1-6, 2012-07-12

各種コード

  • NII論文ID(NAID)
    110009422504
  • NII書誌ID(NCID)
    AN10442647
  • 本文言語コード
    JPN
  • 資料種別
    Technical Report
  • データ提供元
    NII-ELS  IPSJ 
ページトップへ