音声データの隠れ属性を利用した異種音響モデル群の構築  [in Japanese] Constructing Ensembles of Dissimilar Acoustic Models Using Hidden Attributes of Large Speech Corpus  [in Japanese]

Access this Article

Search this Article

Abstract

音声の多様な変化を高精度にモデル化する方法は,音声認識の分野で長らく重要課題の一つに位置づけられてきた.近年では,大規模コーパスの整備に伴い,音響的に類似したサブセットを用いて個々にユニークな特性を持つ音響モデル集合を作成し,システム統合を介してさならる高精度化を図る手法が増えている.本報告では, SNR や話速といった音声に内在する隠れ属性を利用して学習データを分割し,システム統合法のための効果的な音響モデル集合を構築する方法を提案する.提案法では,各発話を事後確率に基づく単一ベクトルで表現した後,コサイン類似度に由来する目的関数を用いて音声データクラスタの独立性を評価する.その後,生成されたデータクラスタ毎に音響モデルを構築し, n-best ROVER によるシステム統合を行う.提案手法は音声検索タスクに特化した大語彙連続音声認識で,単一モデルの音声認識システムと比較して相対的に 4% の性能改善を達成した.One of the objectives in acoustic modeling is to realize robust statistical models against the wide variety of acoustic conditions that are present in real world environments. As large amounts of training data become available, modeling subsets of the data with similar acoustic qualities can be done accurately and multiple acoustic models are jointly used as a form of system combination or model selection. In this paper, we propose a method to partition the training data for constructing ensembles of acoustic models using metadata attributes such as SNR, speaking rate, and duration via a binary tree. The metadata attribute used at each binary split in the decision tree is obtained using a metric proposed in this paper that is cosine-similarity based. The resulting multiple models are combined using voting techniques such as n-best ROVER. The proposed method improved the recognition accuracy by up to 4% relative over the state-of-the-art system on a large vocabulary continuous speech recognition voice search task.

Journal

  • 研究報告音声言語情報処理(SLP)

    研究報告音声言語情報処理(SLP) 2012-SLP-93(3), 1-7, 2012-10-19

Codes

  • NII Article ID (NAID)
    110009464797
  • NII NACSIS-CAT ID (NCID)
    AN10442647
  • Text Lang
    JPN
  • Article Type
    Technical Report
  • Data Source
    NII-ELS  IPSJ 
Page Top