単語の概念ベクトルを用いたテキストセグメンテーション Text Segmentation Using Word Conceptual Vectors

この論文にアクセスする

この論文をさがす

著者

抄録

本論文では,単語の意味表現の1つである概念ベクトルを用いて,テキストを意味的なまとまりの単位に分割するテキストセグメンテーションの方法を提案する.単語の概念ベクトルは,セグメント対象のテキストと同じ分野のテキストコーパスにおける単語の共起関係から導出する.この概念ベクトルを用いたテキストセグメンテーションの方法として,時系列分析の一手法である区分的線形回帰分析による方法と,単語列の結束度による方法について述べる.両提案手法によってテキストの意味段落境界を認定する実験を行い,境界認定精度である再現率と適合率を統合した尺度であるF尺度を算出した.その結果,区分的線形回帰分析による方法は71.5%の精度を持ち,単語列の結束度による方法は77.9%の精度を持つことを確認した.We describe a novel method of segmenting a text into thematic units. The method uses word conceptual vectors, which are based on the co-occurrence of words in a text corpus of the same field of the target text. We explain two segmentation methods; one is based on piecewise linear regression, a kind of time series analysis, and the other on cohension scores of word lines. An experiment to decide semantic paragraphs' boundaries in the text was done by using these two methods. The F-measure obtained by the piecewise linear regression method was 71.5%, and the F-measure obtained by the method using cohension scores of word lines was 77.9%.

We describe a novel method of segmenting a text into thematic units. The method uses word conceptual vectors, which are based on the co-occurrence of words in a text corpus of the same field of the target text. We explain two segmentation methods; one is based on piaewise linear regression, a kind of time series analysis, and the other on cohension scores of word lines. An experiment to decide semantic paragraphs' boundaries in the text was done by using these two methods. The F-measure obtained by the piecewise linear regression method was 71.5%, and the F-measure obtained by the method using cohension scores of word lines was 77.9%.

収録刊行物

  • 情報処理学会論文誌

    情報処理学会論文誌 42(11), 2650-2662, 2001-11-15

    一般社団法人情報処理学会

参考文献:  12件中 1-12件 を表示

被引用文献:  10件中 1-10件 を表示

各種コード

  • NII論文ID(NAID)
    110002726046
  • NII書誌ID(NCID)
    AN00116647
  • 本文言語コード
    JPN
  • 資料種別
    Journal Article
  • ISSN
    1882-7764
  • NDL 記事登録ID
    5975432
  • NDL 雑誌分類
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL 請求記号
    Z14-741
  • データ提供元
    CJP書誌  CJP引用  NDL  NII-ELS  IPSJ 
ページトップへ