大量文書データ中の単語間共起を利用した文書分類

書誌事項

タイトル別名
  • Classifying Articles Using Lexical Co - occurrence in Large Document Databases
  • 自然言語処理

この論文をさがす

抄録

本稿では、特徴ベクトルを用いて自動的に文書分類を行う二つの手法を提案する。一つは、大量の文書データを用いて、同一記事中の単語間共起関係から分野の特徴を表す単語出現頻度分布の近似値を求め、この値を要素とする特徴ベクトルを用いて文書を分類する手法である。もう一つは、EDRの辞書をシソーラスとして用い、単語間の類似度を求め、この単語類似度を要素とする特徴ベクトルを用いて文書を分類する手法である。これらの手法を人手による分類と比較したところ、単語間共起を用いた手法では83.5%の記事が正しく分類され、易しい記事だけに限定すれば98.0%の記事が正しく分類されることが確認できた。また、シソーラスを用いた手法では、63.75%の記事が正しく分類されることが確認できた。

収録刊行物

被引用文献 (25)*注記

もっと見る

参考文献 (18)*注記

もっと見る

キーワード

詳細情報 詳細情報について

  • CRID
    1050845762817790848
  • NII論文ID
    110002722014
  • NII書誌ID
    AN00116647
  • ISSN
    18827764
  • Web Site
    http://id.nii.ac.jp/1001/00013839/
  • 本文言語コード
    ja
  • 資料種別
    journal article
  • データソース種別
    • IRDB
    • CiNii Articles

問題の指摘

ページトップへ