近代書籍を対象とした多フォント漢字認識  [in Japanese] A Multi-Fonts Kanji Character Recognition Method for Early-Modern Japanese Printed Books  [in Japanese]

Access this Article

Search this Article

Abstract

国立国会図書館では,所蔵する明治から昭和前期の近代書籍を近代デジタルライブラリーとしてWeb上でページごとの画像データとして公開しているが,全文検索を行うことができない.そのため,自動テキスト化が望まれている.すでに我々は近代書籍に適したオフライン多フォント漢字認識手法を提案しているが,対象とした漢字は256種であり,確かな有効性を示すには至っていない.これは,近代書籍特有のルビが除去できなかったことが主な原因であるが,これに関してもすでにルビ除去手法を提案しており,ようやく学習データの大幅な増加が期待できるようになった.そこで本論文では,2634種の漢字を学習データとした識別器を生成し,92%の認識率を得た.さらに,実際に近代デジタルライブラリーで公開されている書籍に生成した識別器を適用し,有効性を検証した.結果,認識率は平均90%を超えており,良好な結果が得られた.

In the web site of National Diet Library, the digital library from the Meiji era is open to the public. Since the early-modern Japanese printed books are given as image data, namely, full-text search is not available, automatic conversion to the text is needed. Already we have proposed the Multi-Fonts Kanji character recognition method for Early-Modern Printed Books. The proposed method was intended for only 256 types of Kanji characters, it failed to show a certain validity because there is few types of Chinese characters. The reason is because training data were not collected by the failure of removal of a ruby. In order to solve the problem, we have proposed a ruby removal method. As the result, it is possible to increase the training data. In this paper, by using the 2634 type of Kanji characters, we demonstrate the effectiveness of the proposed method.

Journal

  • 情報処理学会論文誌数理モデル化と応用(TOM)

    情報処理学会論文誌数理モデル化と応用(TOM) 9(2), 33-40, 2016-08-10

Codes

  • NII Article ID (NAID)
    170000148129
  • NII NACSIS-CAT ID (NCID)
    AA11464803
  • Text Lang
    JPN
  • Article Type
    article
  • ISSN
    1882-7780
  • Data Source
    IPSJ 
Page Top