クラスタ内変動最小基準に基づくテキストセグメンテーション

書誌事項

タイトル別名
  • クラスタ ナイ ヘンドウ サイショウ キジュン ニ モトヅク テキストセグメンテーション
  • Text Segmentation Based on Minimum Within-cluster Variation Criterion
  • 自然言語

この論文をさがす

抄録

テキストをトピック単位に分割するテキストセグメンテーションは,テキストを構造化するための重要な要素技術の1 つである.本論文では,テキストを単語の意味表現の1 つである概念ベクトルの系列に変換し,ベクトルの系列を分割するクラスタ列で,クラスタ内のベクトルの変動量の総和であるクラスタ内変動が最小となるものをトピック区間列とする手法を提案する.提案手法の特徴は,テキストの1 区間の意味的なまとまりの度合いを該区間内のベクトルの変動量により判断する点と,テキストの局所的な範囲内の情報のみでなく,テキスト全体のベクトルの分布情報に基づき,セグメンテーションを行う点にある.新聞記事を用いた評価実験の結果,局所的な範囲内でトピック境界を判断する従来手法よりも高精度であることを確認した.

A new text segmentation method is proposed. In the proposed method, text is converted into a concept vector sequence, which corresponds to semantic word representations. Then, the concept vector sequence is segmented into topic clusters to minimize within-cluster variation. The characteristics of the proposed method are to assess the degree of semantic cohesiveness using vector variation within each segment, and to segment text based on both local text information and vector distribution within the entire text. The results of experiments done on newspaper articles have shown that the proposed method yields a much higher segmentation accuracy than the conventional method, which locally determines topic boundaries.

収録刊行物

被引用文献 (8)*注記

もっと見る

参考文献 (17)*注記

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ