擬似単語モデルによる非言語音声の認識  [in Japanese] Recognition of Non-Verbal Speech Using Imitated Word Model  [in Japanese]

Search this Article

Author(s)

Abstract

従来の音声認識では、咳やくしゃみ、あくびのような非言語音または非音声音は、誤認識を引き起こす雑音として扱われて来た。しかし、自然な音声対話を実現する場合、このような音情報も積極的に利用すべきである。このような非言語音声を検出する方法としては、対象音の音響信号的な特徴を用いた信号処理的アプローチや、対象音から学習したHMMを用いる音声認識的アプローチなどがあるが、対象音の多様性に対処するためには、いずれも多量のデータが必要となる。そこで本研究では、対象となる非言語音声を音素系列で近似表現した疑似単語モデルを提案する。このモデルは、音素認識の結果得られる音素系列をクラスタリングし、上位クラスターの中心となる音素列パターンを非言語音声の近似的な発音とするというものである。提案手法の有効性を確認するために、咳及び咳払いを対象として、音声認識実験を行い、咳/咳払いの波形を学習データとしたHMMを用いる手法と比較して、認識正解率、認識精度が改善されることを示した。

This paper proposes imitated word models that represent non-verbal sounds, especially cough sounds here, as phoneme sequences. In conventional speech recognition systems, non-verbal sounds, so-called human noises, are processed as burden noises that cause mis-recognition. Non-verbal sounds are, however, important information to know user's physical and psychological condition. In particular, coughing is one of the most important barometers of daily health check, so we propose an approach to detect the cough sounds from user utterances using the imitated word models constructed by clustering of phoneme sequences obtained in phoneme recognition. The experimental results show that this approach can improve the correct rates and the accuracies for words and coughs compared with the approach using HMM constructed from cough waveforms.

Journal

  • IPSJ SIG Notes

    IPSJ SIG Notes 168, 135-139, 2005-07-22

    Information Processing Society of Japan (IPSJ)

References:  10

Cited by:  4

Codes

  • NII Article ID (NAID)
    110002952455
  • NII NACSIS-CAT ID (NCID)
    AN10115061
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • ISSN
    0919-6072
  • NDL Article ID
    7385864
  • NDL Call No.
    Z14-1121
  • Data Source
    CJP  CJPref  NDL  NII-ELS 
Page Top