残響除去手法とシステム統合手法の種々の残響環境に対する有効性: REVERBチャレンジ  [in Japanese] Effectiveness of dereverberation techniques and system combination approach for various reverberant environments: REVERB challenge  [in Japanese]

Search this Article

Author(s)

Abstract

昨年公開された REVERB チャレンジには,残響音声の認識タスクが含まれる.本報では,ガウス混合モデル,部分空間ガウス混合モデルや深層回路網といった音響モデルの識別学習や,種々の特徴量変換手法といった最新の音声認識手法に焦点をあてた.その前段として,提案の単一チャンネルによる残響時間推定に基づく残響除去手法や,8 チャンネルのビームフォーミングにより直接音を間接音に比べて強調する手法に関して検討した.加えて,REVERB チャレンジでは種々の環境を扱う必要があり,環境ごとに最良のシステムが異なるため,異なる特徴量や異なる種類のシステムを統合する手法に関しても検討を加えた.さらに,補助システムを意図的に構築することで,システム統合の性能をより向上させる提案の識別学習法の有効性も検証した.実験によりこれらの手法の有効性が示され,REVERB チャレンジのシミュレーション・実測それぞれのデータに対して平均 6.76%,18.60% の単語誤り率を達成した.これはベースラインに比して,相対値で 68.8%,61.5% の向上に相当する.

The recently released REVERB challenge includes a reverberant speech recognition task. This paper focuses on state-of-the-art ASR techniques such as discriminative training of acoustic models including Gaussian mixture model, sub-space Gaussian mixture model, and deep neural networks, and various feature transformations after the proposed single channel dereverberation method with reverberation time estimation and multi-channel beamforming that enhances direct sound compared with the reflected sound. In addition, because it is necessary to handle these various environments in the challenge and the best performing system is different from environment to environment, we perform a system combination approach using different feature and different types of systems. Moreover, we use our discriminative training technique for system combination that improves system combination by making systems complementary. Experiments show the effectiveness of these approaches, reaching 6.76% and 18.60% word error rate on the REVERB simulated and real test sets, which are 68.8% and 61.5% relative improvements over the baseline.

Journal

  • IPSJ SIG Notes

    IPSJ SIG Notes 2015-SLP-105(6), 1-6, 2015-02-20

    Information Processing Society of Japan (IPSJ)

Codes

  • NII Article ID (NAID)
    110009877338
  • NII NACSIS-CAT ID (NCID)
    AN10442647
  • Text Lang
    JPN
  • Data Source
    NII-ELS 
Page Top