特徴抽出を目的とした文書クラスタからの一貫性阻害要素除去

佐藤, 進也, 高橋, 公海, 松尾, 真人

クラスタリングにより文書集合を意味的に分類し，それぞれの特徴を表す情報（特徴語）を抽出するという目的のため，クラスタリング結果を改善する方法を考案した．本手法では，各クラスタから，いわゆるノイズと呼ばれるような，クラスタを構成する文書集合の意味的一貫性を阻害する要素を除去する．除去する文書を決定するためには，別のアルゴリズムで得たクラスタリング結果を利用する．これにより，従来埋もれていた特徴語の発見が可能になる．本手法の有効性を確認するため，Q&Aサイトのページを集めて文書集合を作成し，そのクラスタリング結果から特徴的な場所を抽出する（たとえば，バーベキューに関する質問のクラスタから「公園」といった場所を抽出する）実験を行った．10個の文書集合を作成し，それぞれに対して提案手法を適用した結果，延べ百数十の場所が新たに得られた．また，本手法は質問に対して意外な関連性のある場所を抽出する傾向があることが分かった．

For effectively extracting features from document clusters, we developed a technique for improving the quality of the clustering results, which purifies original clusters (i.e., eliminates unwanted elements in each cluster) by using the outcome from another clustering algorithm. For verifying the effectiveness of the proposed approach, we conducted an experiment to discover associations between document clusters and their characteristic places using pages in a social Q&A site (e.g., associate “park” with a document cluster of questions about barbecues). We obtained a hundred and several tens of places in total by applying the proposed approach to 10 document sets. Futhermore, we observed a tendency that the approach discovered unexpected associations.

特徴抽出を目的とした文書クラスタからの一貫性阻害要素除去

書誌事項

この論文をさがす

抄録

収録刊行物

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

特徴抽出を目的とした文書クラスタからの一貫性阻害要素除去

書誌事項

この論文をさがす

抄録

収録刊行物

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

参加プロジェクトリスト

詳細情報詳細情報について