大規模データに対する識別子独立型の特徴選択  [in Japanese] Classifier-Independent Feature Selection for Large-Scale Data  [in Japanese]

Search this Article

Author(s)

    • 工藤 峰一 KUDO Mineichi
    • 北海道大学 大学院情報科学研究科 Division of Computer Science, Graduate School of Information Science and Technology

Abstract

本研究では,文書分類などの大規模データに対して,実用的な時間で行える識別子独立型の特徴選択を検討する.二クラス,二値特徴に限定して,有効な少数の特徴の組み合わせを信頼区間を考慮して求めることで比較的効率の良い方法を提案する.特徴数およびサンプル数がともに十万を越える規模の文書分類問題に対して行った比較実験では,提案手法により最適な特徴集合に近い特徴集合が得られることが示された.

In this study, we attempt to perform classifier-independent feature selection (CIFS) for large-scale data such as text classification. Under the restriction of two-class and binary features, we propose an efficient method that selects a few valid features by using confidence bounds. In comparative experiments for dataset with over 100,000 features and over 100,000 samples, the proposal method obtained a near optimal feature subset.

Journal

  • IEICE technical report

    IEICE technical report 110(330), 73-78, 2010-12-02

    The Institute of Electronics, Information and Communication Engineers

References:  15

Codes

  • NII Article ID (NAID)
    110008675755
  • NII NACSIS-CAT ID (NCID)
    AN10541106
  • Text Lang
    JPN
  • Article Type
    ART
  • ISSN
    09135685
  • NDL Article ID
    10937305
  • NDL Source Classification
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL Call No.
    Z16-940
  • Data Source
    CJP  NDL  NII-ELS 
Page Top