統計的手法による分野非依存のテキスト分割 A Statistical Approach to Domain Independent Text Segmentation

この論文にアクセスする

この論文をさがす

著者

抄録

複数のトピックからなる文章を, それぞれのトピックに切り分けることをテキスト分割と呼ぶ. テキスト分割は, 情報検索や要約のための基本技術として有用である. 本稿では, 分割確率最大化という観点からテキスト分割を定式化した. その定式化の特色の一つは, テキスト内の単語しか, 確率推定に利用しないことである. そのため, 提案手法は, 任意の分野のテキストに対して適用できる. 提案手法の有効性は二つの実験により確認された. まず, 実験1では, 公開データに対して提案手法を適用することにより, 提案手法の分割精度が従来手法の分割精度よりも優れていることが示された. 次に, 実験2では, 長い文書の元々の章や節の構造と提案手法による分割結果とを比較した結果, 厳密な一致のみを正解とする場合, 章には0.37, 節には0.34の割合で一致し, ±1行のずれを許容する場合, 章には0.49, 節には0.51の割合で一致した. これらのことは, 提案手法が, テキスト分割に対して有効であることを示している.

A text is usually composed of multiple topics. Segmenting such a text into coherent topics is useful both for information retrieval and for automatic text summarization. This paper proposes a statistical method that selects the segmentation of the highest probability among possible segmentations as the best segmentation of the given text. Since the method estimates probabilities of segmentations from the given text, it does not need training data. Therefore, it can be applied to any text in any domain. The effectiveness of the method was confirmed through twoexperiments. The firstexperiment evaluated the accuracy of the method by using publicly available data. The experimental results showed that the accuracy of the proposed method is at least as good as that of a state-of-the-art text segmentation system. The second experiment compared the segmentations done by our method with those of original segments in relatively long documents. When we compared our system's segmentations with chapters in the documents, the accuracy was 0.37 on the condition that we regarded only exact matches as correct matches. If we regarded ±1 line differences as correct then the accuracy was 0.49. When we compared our system's segmentations with sections, the accuracies were 0.34 and 0.51, respectively. These results show that our method is effective for domain independent text segmentation.

収録刊行物

  • 自然言語処理 = Journal of natural language processing  

    自然言語処理 = Journal of natural language processing 8(4), 19-36, 2001-10-10 

    一般社団法人 言語処理学会

参考文献:  26件

参考文献を見るにはログインが必要です。ユーザIDをお持ちでない方は新規登録してください。

被引用文献:  1件

被引用文献を見るにはログインが必要です。ユーザIDをお持ちでない方は新規登録してください。

各種コード

  • NII論文ID(NAID)
    10021991573
  • NII書誌ID(NCID)
    AN10472659
  • 本文言語コード
    JPN
  • 資料種別
    ART
  • ISSN
    13407619
  • NDL 記事登録ID
    5941296
  • NDL 雑誌分類
    ZU8(書誌・図書館・一般年鑑--図書館・ドキュメンテーション・文書館)
  • NDL 請求記号
    Z21-B168
  • データ提供元
    CJP書誌  CJP引用  NDL  J-STAGE 
ページトップへ