ウエーブレットパケット分解による残響に頑健な音声認識 Wavelet Packet Decomposition Approach to Reverberant Speech Recognition

Access this Article

Search this Article

Abstract

頑健な音声認識のための残響抑圧を目的として、複数の分解能からなるウエーブレット分析の手法を述べる。提案するウエーブレットパケット分解では、遅い残響成分と音声の成分を効果的に分離するように、各々の分解能を設定する。これにより、各々に適切なウエーブレット基底を用いることで、観測された残響のある信号から効果的なウイナーゲインを計算することができる。残響抑圧は、ウエーブレットパケットの係数をウイーナゲインでフィルタすることで行われる。大語彙連続音声認識(JNASタスク)の評価実験において、提案手法はウエーブレット分析に基づく従来法や他の残響抑圧手法と比べて、高い性能を示した。This paper describes a multiple-resolution signal analysis to suppress late reflection of reverberation for robust automatic speech recognition (ASR). Wavelet packet tree (WPT) decomposition offers a finer resolution to discriminate the late reflection subspace from the speech subspace. By selecting appropriate wavelet basis in the WPT for speech and late reflection, we can effectively estimate the Wiener gain directly from the observed reverberant data. Moreover, the selection procedure is performed in accordance with the likelihood of acoustic model used by the speech recognizer. Dereverberation is realized by filtering the wavelet packet coefficients with the Wiener gain to suppress the effects of the late reflection. Experimental evaluations with large vocabulary continuous speech recognition (LVCSR) in real reverberant conditions show that the proposed method outperforms conventional wavelet-based methods and other dereverberation techniques.

Journal

  • 研究報告音声言語情報処理(SLP)

    研究報告音声言語情報処理(SLP) 2012-SLP-92(11), 1-6, 2012-07-12

Codes

  • NII Article ID (NAID)
    110009422508
  • NII NACSIS-CAT ID (NCID)
    AN10442647
  • Text Lang
    ENG
  • Article Type
    Technical Report
  • Data Source
    NII-ELS  IPSJ 
Page Top