活字データの分類を用いた進化計算による近代書籍からのルビ除去

書誌事項

タイトル別名
  • Ruby Removal Filters by Genetic Programming Using the Classification of Printing Type Data for Early-modern Japanese Printed Books

この論文をさがす

抄録

国立国会図書館では,所蔵する明治から昭和前期の近代書籍を近代デジタルライブラリとしてWeb上でページごとの画像データとして公開しているが,文書内容での検索を行うことができない.そのため,自動でのテキスト化が望まれている.その際,問題となっているのがヒストグラム法では除去できないルビであり,我々はすでに近代書籍に特化したルビ除去手法を提案している.しかしながら,その提案した手法は書籍に付加された版者や時代などの外部情報を利用しなければならず,近代デジタルライブラリのすべての外部情報を利用することはきわめて困難である.そこで本論文では,対象とする書籍画像から直接得られるデータをもとに,進化計算によってルビ除去式を生成し,近代書籍から自動でルビを除去する手法を提案する.

In the web site of National Diet Library, the digital library from the Meiji era is open to the public. Since the early-modern Japanese printed books are given as image data, namely, full-text search is not available, automatic conversion to the text is needed. There is a major obstacle to the text conversion because of ruby, which is found in early-modern printed books. Ruby cannot be removed by the existing and traditional histogram method. Therefore, we have proposed a ruby removal method for early-modern printed books. Since the proposed method is based on the external information added to the books, the feasibility is very low. In this paper, we propose a new method to remove the ruby automatically from early-modern Japanese printed books by generating ruby removal formula by Genetic Programming using the training data based on the book images.

収録刊行物

関連プロジェクト

もっと見る

詳細情報 詳細情報について

  • CRID
    1050845762835892352
  • NII論文ID
    110009886645
  • NII書誌ID
    AA11464803
  • ISSN
    18827780
  • Web Site
    http://id.nii.ac.jp/1001/00141551/
  • 本文言語コード
    ja
  • 資料種別
    article
  • データソース種別
    • IRDB
    • CiNii Articles
    • KAKEN

問題の指摘

ページトップへ