実文書を自然言語処理技術と適切に繋ぐ技術の重要性
書誌事項
- タイトル別名
-
- Significance of Bridging Real-world Documents and NLP Technologies
この論文をさがす
抄録
自然言語処理 (NLP) ツールの多くが入力として平文テキストを前提とする一方で,実文書中のテキストは多様なレイアウト,文構造,埋め込みのオブジェクトなどによって,より表現豊かに表示されている.このようなテキストを NLP ツールで解析する際には,ツールの利用者が対象テキストをツールに合った入力形式に変換しなければならない.また,利用者の不慣れな変換作業によって得られた入力を用いたところで,そのツールが本来持つとされる性能を発揮することは困難となるであろう.本研究の目的は,平文テキストでは表し切れないテキスト構成がタグを用いて表現されるような XML 文書の解析を題材として,この問題への意識喚起を促すことにある.我々は,XML でタグ付けされたテキストと,NLP ツールの入出力となる平文テキストとの間の一般的な変換枠組を提案し,本枠組を用いて獲得されるテキスト列が,単純にタグを除去して得られるテキストよりも構文解析器で高被覆かつ高効率に処理できることを示し,実文書を NLP 技術と適切に繋ぐ技術を開発することの重要性を浮き彫りにする.
収録刊行物
-
- 情報処理学会研究報告. 自然言語処理研究会報告
-
情報処理学会研究報告. 自然言語処理研究会報告 2014 (3), 1-9, 2014-06-26
一般社団法人情報処理学会
- Tweet
キーワード
詳細情報 詳細情報について
-
- CRID
- 1570291227995267712
-
- NII論文ID
- 110009799597
-
- NII書誌ID
- AN10115061
-
- 本文言語コード
- ja
-
- データソース種別
-
- CiNii Articles