Support Vector Machineを用いた重要文抽出法 Important Sentence Extraction Based on Support Vector Machines

この論文にアクセスする

この論文をさがす

著者

    • 平尾 努 HIRAO TSUTOMU
    • 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 NTT Communication Science Laboratories, NTT Corporation
    • 磯崎 秀樹 ISOZAKI HIDEKI
    • 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 NTT Communication Science Laboratories, NTT Corporation
    • 前田 英作 [他] MAEDA EISAKU
    • 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 NTT Communication Science Laboratories, NTT Corporation
    • 松本 裕治 MATSUMOTO YUJI
    • 奈良先端科学技術大学院大学情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology

抄録

文書から重要な情報を持った文を抽出する重要文抽出技術は,文書要約技術の1つであり,より自然な文書要約を実現するための基盤技術である.重要文の抽出精度を高めるためには,複数の手がかりを統合的かつ効果的に扱うことが必要とされており,機械学習手法を取り入れた重要文抽出法が着目されつつある.本稿では,汎化能力の高い機械学習手法とされるSupport Vector Machine(SVM)を用いた重要文抽出手法を提案する.Text Summarization Challenge(TSC)のデータを用いて評価実験を行い,提案手法はLead手法などの従来手法と比較して統計的に有意な差で優れていることを実証した.また,野本らのデータを用いた評価実験でもこれに近い成績が得られた.さらに,文書のジャンルを考慮することで重要文の抽出精度が向上すること,重要文抽出に有効な素性のジャンルによる違いを明らかにした.Extracting from a text the sentences that contain important information is aform of text summarization.If done accurately, it supports the automatic generation of summaries similar to those written by humans.To achieve this, the algorithm must be able to handle heterogeneous information.Therefore, parameter tuning by machine learning techniques have received attention.In this paper, we propose a method of sentence extraction based onSupport Vector Machines (SVMs).To confirm the performance of our method, we conduct experiments on the Text Summarization Challenge (TSC) corpus and Nomoto's corpus.Results on the former show that our method is better (statistically significant) than the Lead-based method.Moreover, we discover that document genre is important with regard to extraction performance; the effective features of each genre are clarified.

Extracting from a text the sentences that contain important information is a form of text summarization. If done accurately, it supports the automatic generation of summaries similar to those written by humans. To achieve this, the algorithm must be able to handle heterogeneous information. Therefore, parameter tuning by machine learning techniques have received attention. In this paper, we propose a method of sentence extraction based on Support Vector Machines (SVMs). To confirm the performance of our method, we conduct experiments on the Text Summarization Challenge (TSC) corpus and Nomoto's corpus. Results on the former show that our method is better (statistically significant) than the Lead-based method. Moreover, we discover that document genre is important with regard to extraction performance; the effective features of each genre are clarified.

収録刊行物

  • 情報処理学会論文誌

    情報処理学会論文誌 44(8), 2230-2243, 2003-08-15

    一般社団法人情報処理学会

参考文献:  29件中 1-29件 を表示

被引用文献:  10件中 1-10件 を表示

各種コード

  • NII論文ID(NAID)
    110002711818
  • NII書誌ID(NCID)
    AN00116647
  • 本文言語コード
    JPN
  • 資料種別
    Journal Article
  • ISSN
    1882-7764
  • NDL 記事登録ID
    6679282
  • NDL 雑誌分類
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL 請求記号
    Z14-741
  • データ提供元
    CJP書誌  CJP引用  NDL  NII-ELS  IPSJ 
ページトップへ