Support Vector Machineによるテキスト分類 Text Categorization Using Support Vector Machines

この論文にアクセスする

この論文をさがす

著者

抄録

本稿では、Support Vector Machine (SVM)を用いたテキスト分類法を提案する。テキスト分類問題に対して学習手法を適用する場合、出現頻度の小さい単語まで考慮して学習を行なわいと、分類精度が落ちることが知られている。このため高い分類精度を実現するためには、高次元の単語ベクトルを用いなければならないが、過学習により分類精度が落ちてしまう危険性が生じる。SVMはKernel開数により非線形学習も可能であり、高次元の入力ベクトルを用いても過学習なしに最適解が得られる。SVMをテキスト分類に適用し、1.異なる次元の単語ベクトル、2.異なるKernel関数、3.異なる目的関数、の3点について比較実験を行なった。その結果、SVMがテキスト分類問題に対して有効であることが確認された。This paper describes a text categorization method that uses Support Vector Machines (SVMs). The accuracies of learning-based text categorization systems depend not only on frequent words but also on infrequent ones. However, high dimensionality of the data sometimes causes overfitting that harms the overall performance of the system. SVMs avoid the curse of dimensionality by using a quadratic optimization method. In addition, SVMs can also learn Non-linearity by introducing Kernel functions. We tested method from the following three perspectives: 1. word vectors of different dimensions, 2. different Kernel functions and 3. extended cost function. The results clearly show the effectiveness of SVMs for the text categorization task.

This paper describes a text categorization method that uses Support Vector Machines(SVMs). The accuracies of learning-based text categorization systems depend not only on frequent words but also on infrequent ones. However, high dimensionality of the data sometimes causes overfitting that harms the overall performance of the system. SVMs avoid the curse of dimensionality by using a quadratic optimization method. In addition, SVMs can also learn Non-linearity by introducing Kernel functions. We tested method from the following three perspectives: 1.word vectors of different dimensions, 2.different Kernel functions and 3.extended cost function. The results clearly show the effectiveness of SVMs for the text categorization task.

収録刊行物

  • 情報処理学会研究報告自然言語処理(NL)

    情報処理学会研究報告自然言語処理(NL) 1998(99(1998-NL-128)), 173-180, 1998-11-05

    一般社団法人情報処理学会

参考文献:  19件中 1-19件 を表示

被引用文献:  11件中 1-11件 を表示

各種コード

  • NII論文ID(NAID)
    110002934804
  • NII書誌ID(NCID)
    AN10115061
  • 本文言語コード
    JPN
  • 資料種別
    Technical Report
  • データ提供元
    CJP書誌  CJP引用  NII-ELS  IPSJ 
ページトップへ