実文書を自然言語処理技術と適切に繋ぐ技術の重要性

書誌事項

タイトル別名
  • Significance of Bridging Real-world Documents and NLP Technologies

この論文をさがす

抄録

自然言語処理 (NLP) ツールの多くが入力として平文テキストを前提とする一方で,実文書中のテキストは多様なレイアウト,文構造,埋め込みのオブジェクトなどによって,より表現豊かに表示されている.このようなテキストを NLP ツールで解析する際には,ツールの利用者が対象テキストをツールに合った入力形式に変換しなければならない.また,利用者の不慣れな変換作業によって得られた入力を用いたところで,そのツールが本来持つとされる性能を発揮することは困難となるであろう.本研究の目的は,平文テキストでは表し切れないテキスト構成がタグを用いて表現されるような XML 文書の解析を題材として,この問題への意識喚起を促すことにある.我々は,XML でタグ付けされたテキストと,NLP ツールの入出力となる平文テキストとの間の一般的な変換枠組を提案し,本枠組を用いて獲得されるテキスト列が,単純にタグを除去して得られるテキストよりも構文解析器で高被覆かつ高効率に処理できることを示し,実文書を NLP 技術と適切に繋ぐ技術を開発することの重要性を浮き彫りにする.

収録刊行物

キーワード

詳細情報 詳細情報について

  • CRID
    1570291227995267712
  • NII論文ID
    110009799597
  • NII書誌ID
    AN10115061
  • 本文言語コード
    ja
  • データソース種別
    • CiNii Articles

問題の指摘

ページトップへ