残響除去手法とシステム統合手法の種々の残響環境に対する有効性: REVERBチャレンジ Effectiveness of dereverberation techniques and system combination approach for various reverberant environments: REVERB challenge

この論文をさがす

著者

抄録

昨年公開された REVERB チャレンジには,残響音声の認識タスクが含まれる.本報では,ガウス混合モデル,部分空間ガウス混合モデルや深層回路網といった音響モデルの識別学習や,種々の特徴量変換手法といった最新の音声認識手法に焦点をあてた.その前段として,提案の単一チャンネルによる残響時間推定に基づく残響除去手法や,8 チャンネルのビームフォーミングにより直接音を間接音に比べて強調する手法に関して検討した.加えて,REVERB チャレンジでは種々の環境を扱う必要があり,環境ごとに最良のシステムが異なるため,異なる特徴量や異なる種類のシステムを統合する手法に関しても検討を加えた.さらに,補助システムを意図的に構築することで,システム統合の性能をより向上させる提案の識別学習法の有効性も検証した.実験によりこれらの手法の有効性が示され,REVERB チャレンジのシミュレーション・実測それぞれのデータに対して平均 6.76%,18.60% の単語誤り率を達成した.これはベースラインに比して,相対値で 68.8%,61.5% の向上に相当する.

The recently released REVERB challenge includes a reverberant speech recognition task. This paper focuses on state-of-the-art ASR techniques such as discriminative training of acoustic models including Gaussian mixture model, sub-space Gaussian mixture model, and deep neural networks, and various feature transformations after the proposed single channel dereverberation method with reverberation time estimation and multi-channel beamforming that enhances direct sound compared with the reflected sound. In addition, because it is necessary to handle these various environments in the challenge and the best performing system is different from environment to environment, we perform a system combination approach using different feature and different types of systems. Moreover, we use our discriminative training technique for system combination that improves system combination by making systems complementary. Experiments show the effectiveness of these approaches, reaching 6.76% and 18.60% word error rate on the REVERB simulated and real test sets, which are 68.8% and 61.5% relative improvements over the baseline.

収録刊行物

  • 情報処理学会研究報告. SLP, 音声言語情報処理

    情報処理学会研究報告. SLP, 音声言語情報処理 2015-SLP-105(6), 1-6, 2015-02-20

    一般社団法人情報処理学会

キーワード

各種コード

  • NII論文ID(NAID)
    110009877338
  • NII書誌ID(NCID)
    AN10442647
  • 本文言語コード
    JPN
  • データ提供元
    NII-ELS 
ページトップへ