統計的手法によるテキストからの重要語抽出メカニズム Automatic Extraction of Keywords from Text Files Using n - gram Statistics

この論文にアクセスする

この論文をさがす

著者

抄録

本論文では字面処理によって,テキストから重要語(キーワード)を自動抽出する方法について述べる.日本語の場合まず文章から単語を得るために,形態素解析が必要であるが,形態素解析には未知語や曖昧性の解消などの問題があり,これを解決するために,従来は複雑な規則や人間がメンテナンスしなければならない辞書が必要であった.本手法はNグラムの頻度情報を用いた完全な字面処理になっている.その手順では()まずNグラム頻度情報を使って重要な文字列を抽出し,()次にその中から無意味な文字列を排除する.実験ではこの手法が未知語や複合語の範囲を正しく識別し,抽出精度を向上させることを確認した.This paper describes a new method to extract free keywords automatically from a Japanese text. Morphological analysis is necessary to recognize words from a text for extraction of keywords. There exist, however, problems of unknown words recognition and ambiguity of compound words recognition, so dictionaries and complex heuristics are necessary to resolve them. Our method is based on the n-gram method and consists of 2 steps: (1) Evaluation of major strings using the n-gram statistics, and (2) Exclusion of nonsense strings. It was found that our method extracts keywords that is unknown word more precisely than conventional methods.

This paper describes a new method to extract free keywords automatically from a Japanese text. Morphological analysis is necessary to recognize words from a text for extraction of keywords. There exist, however, problems of unknown words recognition and ambiguity of compound words recognition, so dictionaries and complex heuristics are necessary to resolve them. Our method is based on the n-gram method and consists of 2 steps : (1) Evaluation of major strings using the n-gram statistics, and (2) Exclusion of nonsense strings. It was found that our method extracts keywords that is unknown word more precisely than conventional methods.

収録刊行物

  • 情報処理学会研究報告情報学基礎(FI)

    情報処理学会研究報告情報学基礎(FI) 1995(87(1995-FI-039)), 41-48, 1995-09-14

    一般社団法人情報処理学会

参考文献:  13件中 1-13件 を表示

被引用文献:  16件中 1-16件 を表示

各種コード

  • NII論文ID(NAID)
    110002934181
  • NII書誌ID(NCID)
    AN10114171
  • 本文言語コード
    JPN
  • 資料種別
    Technical Report
  • データ提供元
    CJP書誌  CJP引用  NII-ELS  IPSJ 
ページトップへ