文書構造抽出技報の開発 Development of Document Architecture Extraction

この論文をさがす

著者

    • 福井 美佳 FUKUI Mika
    • (株)東芝研究開発センター情報・通信システム研究所第二研究所 Research & Development Center, TOSHIBA CORPORATION
    • 山口 浩司 YAMAGUCHI Kouji
    • (株)東芝研究開発センター情報・通信システム研究所第二研究所 Research & Development Center, TOSHIBA CORPORATION
    • 岩井 勇 IWAI Isamu
    • (株)東芝情報処理・機器技術研究所 Information Systems Engineering Lab., TOSHIBA CORPORATION

抄録

文書の構造化作業の負担を軽減することを目的に,文書構造の抽出技術を開発した.技術文書では全国大会の予稿集12,000件,ビジネス文書では例文集,社内事務文書約500件を調査し,構造抽出規則を導き出した.開発した文書構造抽出技術は,技術文書であれば,章,節などの階層構造と,図表への参照構造を抽出する.ビジネス文書であれば,手紙文,記事文などの階層構造を抽出する.技術文書とビジネス文書の区別も文字列の解析により行う.誤り率は,規則化に用いたのと別の予稿集や社内文書で評価した結果,技術文書で10.0%,ビジネス文書で23.0%であった.また,参照構造の抽出誤り率は8%であった.文章中に埋め込まれた式や図表などを扱えるように改良を行った後のフィールドテスとでは,技術文書で5.4%,ビジネス文書で15.4%であった.また手作業よりかなり短い時間で構造化を行えることも事例により確認した.開発した文書構造抽出技術はレイアウト属性と結合することにより自動レイアウトシステムとして商品化した.本抽出技術はレイアウト以外にも,既存文書のハイパテキスト化などに今後非常に有効である.

収録刊行物

  • 電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 = The transactions of the Institute of Electronics, Information and Communication Engineers

    電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 = The transactions of the Institute of Electronics, Information and Communication Engineers 76(9), 2042-2052, 1993-09-25

    一般社団法人電子情報通信学会

参考文献:  9件中 1-9件 を表示

被引用文献:  9件中 1-9件 を表示

各種コード

  • NII論文ID(NAID)
    110003228712
  • NII書誌ID(NCID)
    AN1007132X
  • 本文言語コード
    JPN
  • 資料種別
    ART
  • ISSN
    09151923
  • NDL 記事登録ID
    3832840
  • NDL 刊行物分類
    M055(データ処理・計算機器)
  • NDL 雑誌分類
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL 請求記号
    Z16-1853
  • データ提供元
    CJP書誌  CJP引用  NDL  NII-ELS 
ページトップへ