活字データの分類を用いた進化計算による近代書籍からのルビ除去  [in Japanese] Ruby Removal Filters by Genetic Programming using the classification of printing type data for Early-Modern Japanese Printed Books  [in Japanese]

Search this Article

Author(s)

Abstract

国立国会図書館では,所蔵する明治から昭和前期の近代書籍を近代デジタルライブラリとして Web 上でページごとの画像データとして公開しているが,文書内容での検索を行うことができない.そのため,自動でのテキストデータ化が望まれている.その際,問題となっているのがヒストグラムでは除去できないルビであり,我々はすでに近代書籍に特化したルビ除去手法を提案している.しかしながら,提案した手法は書籍に付加された外部情報を元にしており,実現可能性は低い.そこで本論文では,書籍画像から直接得られるデータを元に,進化計算によってルビ除去式を生成し,近代書籍から自動でルビを除去する手法を提案する.

In National Diet Library, books which are possessed in library as "the digital library from meiji era" are open to the public on Web. Since these are shown as image data and cannot search using document contents, an automatic text conversion is needed. There is a major obstacle to text conversion. It is ruby. Ruby can not be removed in the histogram method. Therefore, we have proposed a ruby removal method for early-modern Japanese printed books. However, since the proposed method is based on the external information added to the books, the feasibility is low. In this paper, we propose a method to remove the ruby automatically from early-modern Japanese printed books by generating ruby removal formula in Genetic Programming using the training data was based on the data of book image.

Journal

  • IPSJ SIG Notes

    IPSJ SIG Notes 2014-MPS-98(20), 1-6, 2014-06-18

    Information Processing Society of Japan (IPSJ)

Codes

  • NII Article ID (NAID)
    110009795498
  • NII NACSIS-CAT ID (NCID)
    AN10505667
  • Text Lang
    JPN
  • ISSN
    09196072
  • Data Source
    NII-ELS 
Page Top