分野の階層構造を利用したコーパスの誤り修正と文書分類への適用  [in Japanese] Using Category Hierarchies for Correcting Category Errors in Text Classification  [in Japanese]

Search this Article

Author(s)

    • 福本 文代 FUKUMOTO Fumiyo
    • 山梨大学大学院医学工学総合研究部 Interdisciplinary Graduate School of Medicine and Engineering, Univ. of Yamanashi
    • 鈴木 良弥 SUZUKI Yoshimi
    • 山梨大学大学院医学工学総合研究部 Interdisciplinary Graduate School of Medicine and Engineering, Univ. of Yamanashi

Abstract

本論文では,人手により複数の分野名が付与された文書における分野名誤りのうち,文書分類の精度に悪影響を与えるものを自動的に検出し,修正する手法を提案する.我々は,誤り検出と修正の手掛りとして三つの点に注目する.1点目は分類に悪影響を与える事例を抽出するために機械学習Support Vector Machines(SVMs)で得られるサポートベクトルと機械学習Naive Bayes(NB)を利用する点である.2点目は誤り事例を検出するために損失関数を利用する点である.3点目は,過剰な修正を抑えるため,分野名をノードとする階層構造を利用する点である.Reuters1996のコーパスを用いて実験を行った結果,誤り検出と修正の精度はそれぞれ0.8391,0.767であった.更に,修正結果を文書分類へ適用した結果,分類精度が0.5〜1.7%向上することが分かり,誤り修正の効果が現れていることが確認できた.

Journal

  • The IEICE transactions on information and systems

    The IEICE transactions on information and systems 89(3), 552-566, 2006-03-01

    The Institute of Electronics, Information and Communication Engineers

References:  27

Cited by:  2

Codes

  • NII Article ID (NAID)
    110004662710
  • NII NACSIS-CAT ID (NCID)
    AA12099634
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • ISSN
    18804535
  • NDL Article ID
    7862188
  • NDL Source Classification
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL Call No.
    Z16-779
  • Data Source
    CJP  CJPref  NDL  NII-ELS 
Page Top