中古仮名文学作品の形態素解析  [in Japanese] Morphological Analysis of Kana Literature in Early Middle Japanese  [in Japanese]

Access this Article

Search this Article

Author(s)

Abstract

古典語研究の精密化・高度化のためには単語の情報が付いたコーパスが必要とされる。そうしたコーパスの構築のためにはコンピューターによる古典語の形態素解析(自動品詞分解)が必要だが,従来,古典語の形態素解析は困難であるとされていた。こうした中で,筆者らは,既存の解析器と組み合わせて実用的な解析を可能にする電子辞書「中古和文UniDic」を新たに開発した。この辞書は,統計的機械学習の手法に基づき,電子化辞書UniDicの見出し語を拡充し,手本となる単語情報つきの古典語コーパスを作成することで開発された。これにより,平安時代の仮名文学作品について約97%(辞書への未登録語が存在する場合は約96%)の精度で正しく解析することが可能になった。この辞書による解析結果を用いることで,従来は不可能だった用例検索や統計的手法にもとづく新しい古典語研究が可能になった。UniDicは短単位という揺れの少ない斉一な単位を採用しているため,作品や時代を超えて解析結果を比較することができる。中古和文UniDicは無償で一般公開されており,国語研究所の「日本語歴史コーパス 平安時代編」の構築に利用されている。

For high-level and accurate study of the classical Japanese language, a morphologically annotated diachronic corpus is essential. In order to construct an annotated corpus, automatic morphological analysis is necessary, but such morphological analysis of classical Japanese has been considered difficult to implement. Given this situation, we developed a new electronic dictionary, "UniDic for Early Middle Japanese", which makes analysis of classical Japanese practical. This dictionary was created by expanding the entries in UniDic (for Contemporary Japanese) and creating a training corpus of Early Middle Japanese based on technique of the statistical machine learning. The new dictionary achieves a high accuracy rate of approximately 97% (approximately 96% when the target text contains unknown words) in analyzing kana literature from the Heian era. This dictionary allows users to apply new research methods to classical Japanese, including complex searches and statistical analyses, which were previously impossible. Because UniDic entries are regularized in Short Unit Words, which are designed to reduce discrepancy and keep uniformity, UniDic users can compare results of analyzed texts beyond the difference of literature works and the times. UniDic for Early Middle Japanese is available to the public gratis and used for construction of the Heian period series of the Corpus of Historical Japanese.

Journal

  • Studies in the Japanese Language

    Studies in the Japanese Language 9(4), 49-62, 2013

    The Society for Japanese Linguistics

Codes

  • NII Article ID (NAID)
    110009810398
  • NII NACSIS-CAT ID (NCID)
    AA11998386
  • Text Lang
    JPN
  • ISSN
    1349-5119
  • NDL Article ID
    024926535
  • NDL Call No.
    Z71-M894
  • Data Source
    NDL  NII-ELS  J-STAGE 
Page Top