実環境における頑健な音声認識のための音韻モデルの教師なし話者適応  [in Japanese] Unsupervised Speaker Adaptation for Robust Speech Recognition in Real Environments  [in Japanese]

Access this Article

Search this Article

Author(s)

Abstract

実環境のための高精度な音声認識システムを実現するためには,様々な話者や雑音環境に応じて,高精度にかつ素早く音韻モデルを適応できることが要求される.本研究ではHMM十分統計量を用いた教師なし環境・話者適応法を拡張した,Spectral Subtractionと既知雑音の付加に基づく教師なし話者適応法を提案する.従来手法は対象とする背景雑音の種別ごとにマッチドモデルを学習することを前提としており,入力ごとのSNRの変動や背景雑音の変化を考慮していなかった.これに対して本手法では,推定された雑音スペクトルを用いて入力の雑音を抑制し,更に消し残った雑音に対して既知の定常雑音を加えることで,背景雑音ごとの差異を平たん化し,単一の音韻モデルで認識を行う.また話者性については,任意の一発声文からデータベースの特徴の近い話者を選択し,その十分統計量からモデルの再学習を行う.これらを統合することにより,教師なしで高速かつ高精度に話者に適応する.認識実験の結果,提案手法は20dB SNRの様々な雑音環境下において,各環境の不特定話者環境Matchedモデルに比べて2%高い,平均85.1%の認識性能を達成した.また,代表的な教師あり適応法であるMLLRとの比較も行った.

Journal

  • The Transactions of the Institute of Electronics,Information and Communication Engineers.

    The Transactions of the Institute of Electronics,Information and Communication Engineers. 87(4), 933-941, 2004-04-01

    The Institute of Electronics, Information and Communication Engineers

References:  12

Cited by:  5

Codes

  • NII Article ID (NAID)
    110003171082
  • NII NACSIS-CAT ID (NCID)
    AA11340957
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • ISSN
    09151923
  • NDL Article ID
    6912882
  • NDL Source Classification
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL Call No.
    Z16-1853
  • Data Source
    CJP  CJPref  NDL  NII-ELS  IR 
Page Top