実データの分析に基づくクラスタリングパラメータの設定法に関する検討 Parameter Setting for a Clustering Method through an Analytical Study of Real Data

Search this Article

Author(s)

    • キー ソァポァン KHY Sophoin
    • 筑波大学大学院システム情報工学研究科コンピュータサイエンス専攻 Department of Computer Science, Graduate School of Systems and Information Engineering, University of Tsukuba
    • 北川 博之 KITAGAWA Hiroyuki
    • 筑波大学大学院システム情報工学研究科コンピュータサイエンス専攻 Department of Computer Science, Graduate School of Systems and Information Engineering, University of Tsukuba

Abstract

これまで,我々のグループでは新規性に基づくクラスタリング法に関する研究を進めてきた.このクラスタリング手法では,最近のトピックの傾向を反映したクラスタリング結果を生成することを目的としている.このクラスタリング法の課題として,時間の経過につれて文書の価値がどの程度減少するかという指数的忘却係数をどのように設定するかという問題があった.これまでのアプローチでは,ユーザからただ一つの忘却パラメータが与えられ,どのようなカテゴリの文書についてもその一つの値が適用されていた.これに対し,この論文では実データをもとにした分析を行う.カテゴリのタイプに依存して,文書の忘却の仕方にどの程度違いがあるかを検証する.

In our previous papers, we have proposed a novelty-based document clustering method. The clustering method generates clusters reflecting current trend of recent topics. However, the problem with this clustering method is the setting of the exponential decaying factor parameter through which a document loses its value as time passes. In the clustering method, the parameter value is assumed a user-specified parameter and only one value is used for all types of documents regardless of which categories they are in. In this paper, we will show an analytical study on the real dataset. The objective of this study is to find the relationship between the decaying behavior of each document with their corresponding category types which will be helpful in the setting of parameter values in the novelty-based document clustering method.

Journal

  • IEICE technical report

    IEICE technical report 106(150), 43-48, 2006-07-07

    The Institute of Electronics, Information and Communication Engineers

References:  8

Codes

  • NII Article ID (NAID)
    110004833207
  • NII NACSIS-CAT ID (NCID)
    AN10012921
  • Text Lang
    ENG
  • Article Type
    ART
  • ISSN
    09135685
  • NDL Article ID
    8018134
  • NDL Source Classification
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL Call No.
    Z16-940
  • Data Source
    CJP  NDL  NII-ELS 
Page Top