特徴量レベルでの統合法に基づくマルチバンド型モデルによる雑音環境下音声認識(<特集>音声言語情報処理とその応用)  [in Japanese] Noisy Speech Recognition by Multi-band Modeling Based on Feature-level Combination  [in Japanese]

    • 大川 茂樹 OKAWA SHIGEKI
    • 千葉工業大学情報科学部情報ネットワーク学科 Department of Information and Network Science, Chiba Institute of Technology

Abstract

本論文では,マルチバンド型と呼ばれる音声認識モデルにおいて,部分周波数帯域の情報を統合する新しい方法を提案する.マルチバンド型音声認識は,入力音声信号を複数の周波数帯域に分割し,各帯域を独立に処理した後に再統合するという認識手法であり,近年,特に雑音環境下で良い性能を与えることが示されている.このようなモデル化では,(i)再統合の方法,(ii)帯域分割の方法について検討する必要がある.本研究では,まず(i)の問題に対して,すでにBourlardらにより提案されているHMMの尤度レベルの再統合に基づく方法(LC法)の追試を行うとともに,新たに音響特徴量レベルの再統合法(FC法)を提案し,比較評価を行う.また,(ii)の問題に対しては,FC法において部分帯域の特徴量と音素モデルとの相互情報量を評価基準とした分割の最適化を試みる.偏帯域性雑音が付加された音声を用いた実験の結果,FC法に基づくシステムは,従来型システムおよびLC法に基づくシステムの双方に対してより高い認識性能を与えた.また,情報量を基準とした分割点最適化の効果が確認された.

This paper presents a new approach for sub-band recombination in the framework of multiband ASR. Recent works suggest that multi-band ASR, which is based on independent processing and recombination of partial frequency bands of input speech, gives more accurate recognition, especially in noisy acoustic environments. In the case, we need to discuss (i) how to recombine the sub-band output, and (ii) how to split the input speech frequencies. We propose and evaluate "feature combination" (FC) approach, as a solution of the above point (i), instead of "likelihood combination" (LC) approach proposed by Bourlard et al. Also for the point (ii), we introduce the mutual information between sub-band features and target phoneme categories to find the optimal splitting frequencies. The experimental results show that the FC-based system can yield better performance both the conventional ASR and the LC-based system for band-limited noisy speech. Also, we could obtain a favorable band-splitting strategy by using the optimization method.

Journal

Transactions of Information Processing Society of Japan   [Journal Detail]

Transactions of Information Processing Society of Japan 43(7), 2046-2054, 2002-07-15  [Index]

Information Processing Society of Japan (IPSJ)

References:  16

You must have a user ID to see the references.If you already have a user ID, please click "Login" to access the info.New users can click "Sign Up" to register for an user ID.

Preview

Preview

Codes

  • NII Article ID (NAID):
    110002771185
  • NII NACSIS-CAT ID (NCID):
    AN00116647
  • Text Lang:
    JPN
  • Article Type:
    ART
  • ISSN:
    03875806
  • NDL Article ID:
    0491081204
  • NDL Source Classification:
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL Call No.:
    Z14-741
  • Databases:
    CJP書誌  NDL  NII-ELS 

Export