文書クラスタリングアルゴリズムと基準の比較  [in Japanese] Comparisons of document clustering algorithms and criterion functions  [in Japanese]

Search this Article

Author(s)

    • 江田 毅晴 EDA Takeharu
    • 日本電信電話株式会社サイバーソリューション研究所 NTT Cyber Solutions Laboratories, NTT CORPORATION
    • 藤村 考 FUJIMURA Ko
    • 日本電信電話株式会社サイバーソリューション研究所 NTT Cyber Solutions Laboratories, NTT CORPORATION

Abstract

本稿では,文書クラスタリング問題に関し,2つのクラスタリング基準と4つのアルゴリズムの性能について評価・検討を行う.評価に用いたクラスタリング基準は,コサイン類似度とエントロピー基準である.クラスタリング結果の良さは,クラスタ内でのクラスラベルの出現確率分布に基づいて測る.本稿では,クラスタリング基準とアルゴリズムの全組み合わせについて実験を行ない,コサイン類似度よりもエントロピー基準が優れていること,エントロピー基準における競合学習が最も良い性能を示すことを確認した.

This paper investigates the performance of two criterion functions and four different algorithms for document clustering. The criteria, that we evaluate, are the cosine similarity criterion and the entropy-based criterion. The quality of a clustering solution is evaluated how the various classes of documents are distributed within each cluster. We present an experimental evaluation involving all combination of criterion functions and algorithms. Our experimental results show that the entropy-based criterion is superior to the cosine similarity's and that competitive learning algorithm with the entropy-based criterion achieves the best performance.

Journal

  • IEICE technical report

    IEICE technical report 111(76), 91-96, 2011-05-30

    The Institute of Electronics, Information and Communication Engineers

References:  22

Codes

  • NII Article ID (NAID)
    110008746401
  • NII NACSIS-CAT ID (NCID)
    AN10012921
  • Text Lang
    JPN
  • Article Type
    ART
  • ISSN
    09135685
  • NDL Article ID
    11158810
  • NDL Source Classification
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL Call No.
    Z16-940
  • Data Source
    CJP  NDL  NII-ELS 
Page Top