類似度の高いサブクラスタに基づく名詞クラスタリング(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム) Extraction of Noun Synonyms and Other Related Words Using Dense-Subclusters

抄録

PantelらがCBCという類似度の高いサブクラスタをあらかじめ作成しておく事でサブクラスタに基づいた揺れの少ない統合と語義を考慮した再統合を行うクラスタリング手法を提案したが,本研究ではCBCを基に係り受けパターンを利用した名詞クラスタリングを行い同義語・類義語クラスタの獲得を目指す.本論文ではCBCの既存の式ではなく確率分布を用いた類似度計算式(Jensen-Shannon)の使用,並びにサブクラスタ候補を決定する新しいスコアリング方法を用いた日本語の名詞クラスタリング手法を提案する.毎日新聞94年度1年分を用いてCBCに用いられる類似度計算式とJensen-Shannonの比較を行いJensen-Shannonの有効性を示し,さらにスコアリング式をいくつかのパターンで提案・比較を行い適切にサブクラスタ候補を決定するスコアリング方法を求める.

In this paper we propose a noun clustering approach on the basis of CBC proposed by Pantel. CBC is a clustering approach that carefully extracts clusters by finding sub-clusters regarded as committees with the same meanings, and try to extract unknown clusters from the remaining elements. In preliminary experiments of Japanese noun clustering, however, we found that CBC does not work well at the measurement of basic similarity between words with context vectors and scoring method that decides to merge sub-clusters. To these problems in this paper we propose to apply Jensen-Shannon formula as a measurement and a new scoring method. In the experimental results of constructing sub-clusters of Japanese nouns from a new paper article we will show that our proposed approaches overcome the approaches in CBC at the clustering accuracy.

収録刊行物

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   [巻号一覧]

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 108(408), 31-35, 2009-01-19  [この号の目次]

社団法人電子情報通信学会

参考文献:  8件

参考文献を見るにはログインが必要です。ユーザIDをお持ちでない方は新規登録してください。

プレビュー

プレビュー

各種コード

  • NII論文ID(NAID) :
    110007138259
  • NII書誌ID(NCID) :
    AN10091225
  • 本文言語コード :
    JPN
  • 資料種別 :
    ART
  • ISSN :
    09135685
  • NDL 記事登録ID :
    9794021
  • NDL 雑誌分類 :
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL 請求記号 :
    Z16-940
  • 収録DB :
    CJP書誌  NDL  NII-ELS