『日本語歴史コーパス』のための書籍活字の電子化 : 小学館新全集『今昔物語集』を事例として

書誌事項

タイトル別名
  • Digitization of Typeset Books in Constructing the Corpus of Historical Japanese : The Case of the Shogakukan (SNKBZ) Edition of the Konjaku Monogatarishu
  • 『 ニホンゴ レキシ コーパス 』 ノ タメ ノ ショセキ カツジ ノ デンシカ : ショウガクカンシン ゼンシュウ 『 コンジャク モノガタリシュウ 』 オ ジレイ ト シテ

この論文をさがす

抄録

国立国語研究所 コーパス開発センター 非常勤研究員(元)

東京農工大学 博士課程

[former] Adjunct Researcher, Center for Corpus Development, NINJAL

Doctoral Student, Tokyo University of Agriculture and Technology

国立国語研究所で計画されている『日本語歴史コーパス』の構築にあたっては活字書籍化された古典資料のコーパス化を基本とし,その際には国内規格JIS X0213文字集合を用いて活字を電子化することが予定されている。本稿ではJIS X0213を古典資料の活字書籍に適用した場合の効果を検証するため,小学館新全集『今昔物語集』での漢字活字を調査し,のべ字数にして99.86%の活字がJIS X0213でカバーできることを明らかにし,JIS X0213の有効性を確認した。また,JIS X0213では表現できない活字に関しては,コーパスとしての利便性を鑑み,「〓」表示せずJIS X0213の範囲内の別字で代用しつつ,原資料での字形の情報を保持する方針を考案した。別字代用によりほぼ9割の外字は解消されるが,「〓」表示を完全になくすためには,文字レベルではなく,語の表記というレベルでの代用を考えなければならなくなる。末尾には小学館新全集『今昔物語集』で代用処理の対象となる特殊活字の一覧を付した。

Digitizing characters not included in the standard set is an urgent problem for electronic corpora of historical documents. Such non-standard characters have hitherto been replaced with the symbol "〓" in digital corpora, which is quite inconvenient for users. In constructing the Corpus of Historical Japanese, the current Japanese standard for character codes, JIS X0213, will be adopted for the digitization of printed documents. This paper first examines the efficacy of JIS X0213 for typeset versions of old texts. A thorough investigation of the Shogakukan (SNKBZ) edition of the Konjaku Monogatarishu found that JIS X0213 covers 99.86% of the total character tokens. The paper then proposes a substitution system for the remaining 0.14% of the characters not covered by JIS X0213. The idea is to replace these non-standard characters with similar characters that are included in JIS X0213 while retaining information about the original characters for reference. All the non-standard characters in the Shogakukan (SNKBZ) edition of the Konjaku Monogatarishu are listed at the end of the paper along with their replacements.

application/pdf

収録刊行物

関連プロジェクト

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ