「人情本コーパス」の設計と構築

DOI NINJAL Web Site オープンアクセス

書誌事項

タイトル別名
  • Design and Construction of the Ninjobon Corpus
  • 「 ニンジョウボン コーパス 」 ノ セッケイ ト コウチク

この論文をさがす

抄録

国立国語研究所 研究系 言語変化研究領域

東京大学大学院人文社会系研究科 博士課程

常葉大学

千葉大学

国立国語研究所 研究系 言語変化研究領域

国立国語研究所 研究系 言語変化研究領域

Language Change Division, Research Department, NINJAL

Graduate Student, Humanities and Sociology, The University of Tokyo

Tokoha University

Chiba University

Language Change Division, Research Department, NINJAL

Language Change Division, Research Department, NINJAL

現在,『日本語歴史コーパス』「江戸時代編」の一環として「人情本コーパス」を構築中である。2015年10月には『比翼連理花廼志満台』を対象とした「人情本コーパス」の試行版(全文検索システム『ひまわり』版)を公開した。人情本のコーパス化は,(1)原本表記に忠実な翻字テキストの作成,(2)(1)に最小限の校訂を加えた『ひまわり』版XMLテキストの作成の段階である。XMLテキストの作成では,基本的に「洒落本コーパス」のタグセットに準拠し,合字や校訂にかかわるタグを追加した人情本用タグセットを用意した。また,『花廼志満台』初編上巻の形態素解析を行った結果,解析精度は約87%であった。人情本に特徴的なイレギュラーな訓の多さが,精度の低さと関係している。今後,形態論情報付きコーパスを構築するにあたっての課題は,イレギュラーな訓を含む漢字に振られた「ルビ」を,どのように扱っていくかである。

The Ninjobon Corpus is currently under construction as a part of the Edo Period Collection of the Corpus of Historical Japanese. In October 2015, a trial version of the Ninjobon Corpus (full text search system in the Himawari edition) focusing on the Hiyokurenri Hana no Shimadai was publicly released. The Ninjobon Corpus creation is at the stage of (1) faithful transcription of the original printed book into text, and (2) creation of the "Himawari" XML texts with minimal revisions to (1). In the creation of the XML texts, the tag set is fundamentally based on the Sharebon Corpus, though a tag set with tags related to ligatures and revisions was prepared for the Ninjobon. Further, the results of a morphological analysis of the first volume of Hana no Shimadai showed an analytical precision of approximately 87%. The low precision is caused by the large number of characteristically irregular readings in the Ninjobon. One challenge in a corpus construction with annotated morphological information is on how to address the "rubies" attached to kanji characters with irregular native Japanese readings.

application/pdf

収録刊行物

関連プロジェクト

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ