統計的手法によるテキストからのキーワード抽出法 A Keyword Extraction Method by Using Statistical Text Information

この論文をさがす

著者

抄録

本論文では簡単な字面処理によって,文章からキーワード候補を自動抽出する方法について述べる.日本語のキーワードの自動抽出法では文章から単語を得るために,形態素解析が必要であるが,形態素解析には未知語や曖昧性の解消などの問題があり,これを解決するために,従来は複雑な規則や人手によって作成される辞書が必要であった.本手法では完全な字面処理からのアプローチとしてNグラムの頻度情報を用いる.まず,Nグラム頻度情報から重要な文字列を抽出し,次にその中から無意味な文字列を排除する.これによって簡単な字面処理だけによって,キーワード候補の抽出が可能になった.また実験の拡大,再現も容易である.

This paper describes a new method to extract free keywords automatically from a Japanese text. Morphological analysis is necessary to recognize words from a text for extraction of keywords. There exist, however, problems of unknown words recognition and ambiguity of compound words recognition, so dictionaries and complex heuristics are necessary to resolve them. This method is based on the N-gram method which need not morphological analysis. It includes 2 steps, evaluation of major strings using the N-gram statistics and the exclusion of nonsense strings. Therefore, this keyword extraction method is very simple and easily applicable to a large scale texts.

収録刊行物

  • 電子情報通信学会技術研究報告. DE, データ工学

    電子情報通信学会技術研究報告. DE, データ工学 95(81), 9-16, 1995-05-26

    一般社団法人電子情報通信学会

参考文献:  4件中 1-4件 を表示

被引用文献:  10件中 1-10件 を表示

各種コード

  • NII論文ID(NAID)
    110003188732
  • NII書誌ID(NCID)
    AN10012921
  • 本文言語コード
    JPN
  • 資料種別
    ART
  • データ提供元
    CJP書誌  CJP引用  NII-ELS 
ページトップへ