システム統合のための音響モデルの識別学習 (音声 音学シンポジウム2014)  [in Japanese] Discriminative training of acoustic models for system combination  [in Japanese]

Search this Article

Author(s)

Abstract

識別学習においては,単一のシステムを用いた場合,評価関数は正解ラベルを参照して音声認識性能が向上するように定められる.これに対して,多数決によって出力仮説を洗練するシステム統合手法では,補助仮説を生成する複数のシステムを構築する必要がある.本報では,これら双方の要求を相互情報量に基づく識別学習の枠組み内で統合する.すなわち,正解ラベルとの相互情報量を最大化しつつ,元のシステムの仮説との相互情報量を最小化することを目的とした評価関数を提案し,それを最適化することで補助システムのモデルを構築する.また,補助システムの学習データに元のシステムの正解不正解を考慮して重みづけることに対応していることに着目し,ブースティングとの密接な関係について分析する.これに加えて,実用的には,提案法は従来の識別学習法のラティスに基づくモデル変数更新アルゴリズムを単純に拡張して補助システムを構築するため,補助システムの出力が元のシステムからどの程度離れるかを調整することができる.第2回CHiMEチャレンジによる高騒音下音声認識の実験により,既存のシステム統合手法と比べて提案法の有効性が示された.

In discriminative training methods, the objective function is designed to improve the performance of automatic speech recognition with reference to correct labels using a single system. On the other hand, system combination methods, which output refined hypotheses by a majority voting scheme, need to build multiple systems that generate complementary hypotheses. This paper aims to unify the both requirements within a discriminative training framework based on the mutual information criterion. That is, we construct complementary models by optimizing the proposed objective function, which yields to minimize the mutual information with base systems' hypotheses, while maximize that with correct labels, at the same time. We also analyze that this scheme corresponds to weight the training data of a complementary system by considering correct and error tendencies in the base systems, which has close relationship with boosting methods. In addition, the proposed method can practically construct complementary systems by simply extending a lattice-based parameter update algorithm in discriminative training, and can adjust the degree of how much the complementary system outputs are different from base system ones. The experiments on highly noisy speech recognition ('The 2nd CHiME challenge') show the effectiveness of the proposed method, compared with a conventional system combination approach.

Journal

  • IEICE technical report. Speech

    IEICE technical report. Speech 114(52), 147-152, 2014-05-24

    The Institute of Electronics, Information and Communication Engineers

Codes

  • NII Article ID (NAID)
    110009903127
  • NII NACSIS-CAT ID (NCID)
    AN10013221
  • Text Lang
    JPN
  • ISSN
    0913-5685
  • NDL Article ID
    025512894
  • NDL Call No.
    Z16-940
  • Data Source
    NDL  NII-ELS 
Page Top