ニュース音声を対象とした言語モデルと話題抽出の検討  [in Japanese] Language Modeling and Topic Extraction for Broadcast News  [in Japanese]

Search this Article

Author(s)

    • 高木 幸一 TAKAGI Koh'ichi
    • 東京工業大学大学院情報理工学研究科計算工学専攻 Tokyo Institute of Technology, Department of Computer Science
    • 桜井 直之 SAKURAI Naoyuki
    • 東京工業大学大学院情報理工学研究科計算工学専攻 Tokyo Institute of Technology, Department of Computer Science
    • 岩崎 淳 IWASAKI Atsushi
    • 東京工業大学大学院情報理工学研究科計算工学専攻 Tokyo Institute of Technology, Department of Computer Science
    • 古井 貞煕 FURUI Sadaoki
    • 東京工業大学大学院情報理工学研究科計算工学専攻 Tokyo Institute of Technology, Department of Computer Science

Abstract

放送ニュース音声のディクテーションと、それに基づく話題抽出に関する検討結果について報告する。単語の読みの多様性に対処するため、読みの確率をスコアに含む方法を提案する。未知語の問題に対処するため、その読みをあらかじめ新語として登録し、言語モデルには未知語のモデルを用いる方法を提案する。高次の統計的言語モデルとして、単語の頻度と分類語彙表を用いたクラス4グラムを検討し、余剰語への対処法についても検討する。次に、ニュース音声から、単語の相対出現頻度に基づいて話題語を抽出する方法を検討する。ディクテーションでは、anchor setに対して83.2%の単語正解精度が得られ、各ニュースから5個の話題語を抽出する場合、82.8%のprecisionが得られる。

This paper reports recent advances in Japanese broadcast news transcription and automatic topic-word extraction from the transcribed news speech. To cope with the variability of the readings for each word, a new method for incorporating reading probability of each word in the decoding process is proposed. As a realistic solution to the new-word problem, a new method is proposed, in which new words are manually registered and OOV language model is applied to the new word. Class 4-grams based on a word frequency list and a word classification table are investigated. A method to cope with the extraneous word problem is also investigated. A method to extract topic words based on the relative observation frequency of each word is investigated. 83.2% word accuracy is obtained in dictation for anchors and 82.8% precision is obtained when five topic words are extracted from each news article.

Journal

  • IEICE technical report. Speech

    IEICE technical report. Speech 98(106), 73-80, 1998-06-12

    The Institute of Electronics, Information and Communication Engineers

References:  14

Cited by:  14

Codes

  • NII Article ID (NAID)
    110003296955
  • NII NACSIS-CAT ID (NCID)
    AN10013221
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • Data Source
    CJP  CJPref  NII-ELS 
Page Top