大人・子供に適応した音声情報案内のためのユーザ自動識別  [in Japanese] Adult and Child Discrimination for Flexible Spoken Guidance System  [in Japanese]

Search this Article

Author(s)

    • 西村 竜一 NISIMURA Ryuichi
    • 奈良先端科学技術大学院大学 情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology
    • 中村 敬介 NAKAMURA Keisuke
    • 奈良先端科学技術大学院大学 情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology
    • 李 晃伸 [他] LEE Akinobu
    • 奈良先端科学技術大学院大学 情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology
    • 猿渡 洋 SARUWATARI Hiroshi
    • 奈良先端科学技術大学院大学 情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology
    • 鹿野 清宏 SHIKANO Kiyohiro
    • 奈良先端科学技術大学院大学 情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology

Abstract

本報告では,音声インタフェースにおけるユーザ年齢層に応じた柔軟な対話処理の実現を目指して,話者の大人・子供識別手法を検討する.これまでの大人ユーザをターゲットとする音声認識では子供発話の認識は困難であった.しかし,家庭や公共施設雀への音声インタフェースの導入を考えると子供の存在は無視できない.子供発話を扱うための音声認識と音声インタフェースの改良が求められる.提案手法では,.大人・子供に適応した音声情報案内の実装に必要な話者識別手段として,音声認識結果の対数尤度から求める音響的特徴と言語的特徴を併用した統計学習に基づく識別手法を実装する.二値分類アルゴリズムであるSVM(Support Vector Machine)を識別に用いた実験では91.8%の識別率を得た.これは音響的特徴のみを含むGMM(Gaussian Mixture Model)の尤度比較を使った識別結果から5.4%の識別率改善である.本研究ではフィールドテストをすすめている生駒市コミュニティセンターの音声情報案内システム「たけまるくん」をプラットホームとしており,実験にはそのフィールドテスト収集発話を用いた.また,子供収集発話を音声認識モデル構築に含めることで子供認識精度の向上を試みており,その結果も報告する.

This paper describes necessities of flexible spoken dialogues to both adult and child users. The conventional speech recognition program, which is developed on adult utterances, can not recognize child utterances correctly. It becomes impossible to disregard the increase of child users when the system is installed in a home or a public place. To realize the flexibility according to the user's age group, an automatic approach discriminating speakers between adult and child users is necessary. We propose a novel discrimination method on the basis of a statistical learning. As for parameter vectors in the algorithm, acoustic and linguistic properties extracted from speech recognition logarithm likelihood are adopted. Although GMM-based recognition uses only acoustic properties, this method can also consider linguistic properties. In the experiments with the SVM-based screening, we obtained 91.8% discrimination rate to the actual users' utterances. 5.4% improvement is shown as comparison with the GMM-based recognition. Our research platform "Takemaru-kun" system is a real world spoken guidance system located at the Ikoma-city Community Center. The system aims at a long-term field test of a speech interface and collecting actual users' utterance. To improve child speech recognition precisions, collected utterances are applied in training recognition models. Evaluation results of child speech recognition accuracy are also described in this paper.

Journal

  • IEICE technical report. Speech

    IEICE technical report. Speech 103(519), 97-102, 2003-12-11

    The Institute of Electronics, Information and Communication Engineers

References:  18

Cited by:  2

Codes

  • NII Article ID (NAID)
    110003295757
  • NII NACSIS-CAT ID (NCID)
    AN10013221
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • ISSN
    09135685
  • NDL Article ID
    6827932
  • NDL Source Classification
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL Call No.
    Z16-940
  • Data Source
    CJP  CJPref  NDL  NII-ELS 
Page Top