遺伝的プログラミングを用いた近代書籍からのルビ除去

書誌事項

タイトル別名
  • Ruby Removal Filters Using Genetic Programming for Early-modern Japanese Printed Books

この論文をさがす

抄録

国立国会図書館では,所蔵する明治から昭和前期の近代書籍を近代デジタルライブラリとしてWEB上でページごとの画像データとして公開しているが,文書内容での検索を行うことができない.そのため,自動でのテキストデータ化が望まれている.その際,問題となっているのがルビである.現在のルビを直線的に除去する技術は,規格に沿った現在の書籍を対象としたものであるため,現在の書籍とは違う特性を持つ近代書籍には適用できない.そこで,本研究では,遺伝的プログラミングを用いて,曲線的に出版者・時代ごとの専用ルビ除去式の生成を行う.

In National Diet Library, books which are possessed in library as “the digital library from meiji era” are open to the public on WEB. Since these are shown as image data and cannot search using document contents, an automatic text conversion is needed. However, ruby is a disturbing text conversion. Since existing techniques of linearly removing ruby had developed for books of the current standard, the techniques are inapplicable to early-modern Japanese books, which have a specific characteristic different from characters of current books. In this paper, we propose a method to remove ruby from early-modern Japanese books using Genetic Programming.

収録刊行物

詳細情報 詳細情報について

  • CRID
    1050845762833406976
  • NII論文ID
    110009597935
  • NII書誌ID
    AA11464803
  • ISSN
    18827780
  • Web Site
    http://id.nii.ac.jp/1001/00094809/
  • 本文言語コード
    ja
  • 資料種別
    article
  • データソース種別
    • IRDB
    • CiNii Articles

問題の指摘

ページトップへ