話者クラス音響モデルを用いた講演音声認識におけるクラスタリング手法の各種検討 (音声・第14回音声言語シンポジウム)  [in Japanese] An Investigation of Clustering Methods using Speaker-Class Models in Lecture Speech Recognition  [in Japanese]

Search this Article

Author(s)

Abstract

本稿では,話し言葉音声認識の性能向上を目指し,クラスタ数100以上の大規模な話者クラスタリングによる話者クラス音響モデルの検討を行った.この際,1クラスタ当たりの学習データの減少を防ぐため,1人の話者が複数のクラスタに属すことを許すソフトクラスタリングを用いた.認識結果は,話者クラス音響モデルの数だけ得られるため,その中から最終的な認識結果を選択する必要がある.その選択方法として,各話者クラス音響モデル間で最大尤度を示す話者クラス音響モデルの認識結果を最終的な認識結果とする方法を用いた.モデルの選択は,話者毎及び発話毎の2種類を行った.以上の評価を日本語話し言葉コーパス(CSJ)を用いて行った。認識実験の結果,べ一スラインの単語誤り率21.08%に対し,提案手法によるクラスタリングで,単語誤り率20.59%(話者毎のモデル選択)と単語誤り率20.69%(発話毎のモデル選択)を得た.以上より,話し言葉音声認識において,提案手法が有効であることが分かった.

In this paper, we have examined speaker clustering method using more than 100 clusters in order to improve the performance of spontaneous speech recognition. In this method, we use a soft clustering algorithm that allows a speaker to belong to more than one cluster in order to prevent a decrease in amount of training data per cluster. In the recognition procedure, the system needs to select one recognition result from the results of each speaker-class model. The selection can be conducted on the basis of the maximum likelihood among speaker-class model. In this work, we carry out two types of selection method; one is the method that selects the model every speaker and the other is the method that selects the model every utterance. The evaluation is conducted on CSJ (Corpus of Spontaneous Japanese). As the results, a word error rate of 21.08% was obtained in the baseline experiment. Meanwhile, 20.59%(selection every speaker) and 20.69%(selection every utterance) were obtained by using the proposed method. The results showed that the proposed method was effective for spontaneous speech recognition.

Journal

  • IEICE technical report. Speech

    IEICE technical report. Speech 112(369), 125-130, 2012-12-20

    The Institute of Electronics, Information and Communication Engineers

Codes

  • NII Article ID (NAID)
    110009667285
  • NII NACSIS-CAT ID (NCID)
    AN10013221
  • Text Lang
    JPN
  • ISSN
    0913-5685
  • NDL Article ID
    024197406
  • NDL Call No.
    Z16-940
  • Data Source
    NDL  NII-ELS 
Page Top