活字データの分類を用いた進化計算による近代書籍からのルビ除去

粟津, 妙華, 高田, 雅美, 城, 和貴

国立国会図書館では，所蔵する明治から昭和前期の近代書籍を近代デジタルライブラリとしてWeb上でページごとの画像データとして公開しているが，文書内容での検索を行うことができない．そのため，自動でのテキスト化が望まれている．その際，問題となっているのがヒストグラム法では除去できないルビであり，我々はすでに近代書籍に特化したルビ除去手法を提案している．しかしながら，その提案した手法は書籍に付加された版者や時代などの外部情報を利用しなければならず，近代デジタルライブラリのすべての外部情報を利用することはきわめて困難である．そこで本論文では，対象とする書籍画像から直接得られるデータをもとに，進化計算によってルビ除去式を生成し，近代書籍から自動でルビを除去する手法を提案する．

In the web site of National Diet Library, the digital library from the Meiji era is open to the public. Since the early-modern Japanese printed books are given as image data, namely, full-text search is not available, automatic conversion to the text is needed. There is a major obstacle to the text conversion because of ruby, which is found in early-modern printed books. Ruby cannot be removed by the existing and traditional histogram method. Therefore, we have proposed a ruby removal method for early-modern printed books. Since the proposed method is based on the external information added to the books, the feasibility is very low. In this paper, we propose a new method to remove the ruby automatically from early-modern Japanese printed books by generating ruby removal formula by Genetic Programming using the training data based on the book images.

活字データの分類を用いた進化計算による近代書籍からのルビ除去

書誌事項

この論文をさがす

抄録

収録刊行物

関連プロジェクト

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

活字データの分類を用いた進化計算による近代書籍からのルビ除去

書誌事項

この論文をさがす

抄録

収録刊行物

関連プロジェクト

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

参加プロジェクトリスト

詳細情報詳細情報について