N-best 線形辞書探索と 1-best 近似木構造辞書探索の併用による大語彙連続音声認識  [in Japanese] Large Vocabulary Continuous Speech Recognition using N-best Linear Lexicon Search and Tree Lexicon Search with 1-best Approximation  [in Japanese]

Search this Article

Author(s)

Abstract

HMMに基づく大語彙連続音声認識システムでは,語彙数の増加に伴い認識時間が増加する.そこでサブワード単位でプレフィクスを単語間で共有した木構造化辞書を用いることで状態数を削減する.また認識過程において音声の各時刻における部分文仮説に接続しうる単語を次々とつないでいくと仮説数が急速に増大するため,単語境界や尤度の単語履歴依存性に対して近似手法を用いる.まず,木構造辞書とバイグラムを用いた認識手法における単語履歴依存性の近似手法,および線形辞書を用いた認識手法について比較検討を行った.1-best近似木構造辞書探索は効率が良いが探索仮定で最適な解が失われる可能性が高いこと,線形辞書に関しては最適な解は求められるが効率が悪い.これらを踏まえ,木構造辞書を用いた1-best近似探索と,一部の単語を動的に線形に展開して探索する方法とを併用する手法を提案する.この手法を読み上げ音声およびニュース音声において実験的に評価した.その結果,全2万単語のうち250単語について線形辞書に動的に展開することによって,読み上げ音声では正解精度約5%および正解率約3%,ニュース音声では正解精度約2%,正解率約3%の性能の向上を得ることができた.

Computational cost on a large vocabulary continuous speech recognition system based on HMM is proportional to the number of words in the vocabulary. A tree-structured dictionary is generally used to reduce the number of states of HMMs. An approximation of dependency of word boundary and likelihood on word histories is also used to suppress the increase of hypotheses in the forward procedure. We first compared the search algorithms with a tree-structured dictionary using some approximation methods and that with a linear dictionary. The algorithm based on 1-best approximation with a tree-structured dictionary is efficient but frequently looses the optimal sentence hypothesis. Linear dictionary search can find the optimal hypothesis but needs much computational cost. Thus, we propose a search method using these two algorithms in parallel. We evaluated this new search algorithm and obtained improved word recognition rate and word accuracy by 5% and 3%, respectively on read speech, and 2% and 3%, respectively on broadcast news speech.

Journal

  • IEICE technical report. Speech

    IEICE technical report. Speech 103(94), 1-6, 2003-05-30

    The Institute of Electronics, Information and Communication Engineers

References:  13

Cited by:  4

Codes

  • NII Article ID (NAID)
    110003295837
  • NII NACSIS-CAT ID (NCID)
    AN10013221
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • ISSN
    09135685
  • NDL Article ID
    6620461
  • NDL Source Classification
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL Call No.
    Z16-940
  • Data Source
    CJP  CJPref  NDL  NII-ELS 
Page Top