文書構造抽出技報の開発  [in Japanese] Development of Document Architecture Extraction  [in Japanese]

Search this Article

Author(s)

    • 福井 美佳 FUKUI Mika
    • (株)東芝研究開発センター情報・通信システム研究所第二研究所 Research & Development Center, TOSHIBA CORPORATION
    • 山口 浩司 YAMAGUCHI Kouji
    • (株)東芝研究開発センター情報・通信システム研究所第二研究所 Research & Development Center, TOSHIBA CORPORATION
    • 岩井 勇 IWAI Isamu
    • (株)東芝情報処理・機器技術研究所 Information Systems Engineering Lab., TOSHIBA CORPORATION

Abstract

文書の構造化作業の負担を軽減することを目的に,文書構造の抽出技術を開発した.技術文書では全国大会の予稿集12,000件,ビジネス文書では例文集,社内事務文書約500件を調査し,構造抽出規則を導き出した.開発した文書構造抽出技術は,技術文書であれば,章,節などの階層構造と,図表への参照構造を抽出する.ビジネス文書であれば,手紙文,記事文などの階層構造を抽出する.技術文書とビジネス文書の区別も文字列の解析により行う.誤り率は,規則化に用いたのと別の予稿集や社内文書で評価した結果,技術文書で10.0%,ビジネス文書で23.0%であった.また,参照構造の抽出誤り率は8%であった.文章中に埋め込まれた式や図表などを扱えるように改良を行った後のフィールドテスとでは,技術文書で5.4%,ビジネス文書で15.4%であった.また手作業よりかなり短い時間で構造化を行えることも事例により確認した.開発した文書構造抽出技術はレイアウト属性と結合することにより自動レイアウトシステムとして商品化した.本抽出技術はレイアウト以外にも,既存文書のハイパテキスト化などに今後非常に有効である.

Journal

  • The Transactions of the Institute of Electronics,Information and Communication Engineers.

    The Transactions of the Institute of Electronics,Information and Communication Engineers. 76(9), 2042-2052, 1993-09-25

    The Institute of Electronics, Information and Communication Engineers

References:  9

Cited by:  9

Codes

  • NII Article ID (NAID)
    110003228712
  • NII NACSIS-CAT ID (NCID)
    AN1007132X
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • ISSN
    09151923
  • NDL Article ID
    3832840
  • NDL Source Classification
    M055(データ処理・計算機器)
  • NDL Source Classification
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL Call No.
    Z16-1853
  • Data Source
    CJP  CJPref  NDL  NII-ELS 
Page Top