コーパス管理ツール「茶器」による単語情報付き古典語コーパスの活用

Bibliographic Information

Other Title
  • Application of the corpus management tool ChaKi to morphologically annotated corpora of classical Japanese

Abstract

近年、古典文学などの歴史的な日本語テキストの自動形態素解析が可能になった。しかし、一般的な日本語研究者にとって、言語学的な研究のために形態素解析済みのコーパスを利用することは困難であった。これは主として、検索や集計、統計的な分析のための十分なツールが存在しなかったためである。だが、形態素解析済みのコーパスを作成・検索するための汎用コーパス管理ツール「茶器」が開発された。「茶器」は形態素解析や係り受け解析などの多様な言語学的アノテーションを扱うことが可能であり、その機能は歴史的な日本語資料の言語学的研究に十分なものとなってきている。そこで、我々は「茶器」を形態素解析済みの歴史的なテキストに応用した。これにより歴史的な日本語資料を対象にした自由度の高い検索や、n グラムやMI スコアなどを用いた統計的な分析が可能になる。

Recently, automatic morphological analysis for historical Japanese texts has become practical. However, it is difficult for general Japanese linguists to use automatically tagged corpora for their linguistic research. This is chiefly because there do not exist effective tools for search, summarization and statistical analysis on linguistic corpus. Nevertheless, a general corpus management tool ChaKi was developed for creating and searching annotated corpora. Since ChaKi can deal with various linguistic annotations including morphological analysis and dependency relation, its function is sufficient for linguistic research of historical Japanese texts. Accordingly, we adopted ChaKi to morphologically analyzed texts of historical Japanese. It allows flexible search and statistical analysis such as n-gram frequencies, mutual information (MI) scores, and frequent sequence mining on historical Japanese.

Journal

Related Projects

See more

Details 詳細情報について

  • CRID
    1050574047131482240
  • NII Article ID
    170000068414
  • Web Site
    http://id.nii.ac.jp/1001/00079416/
  • Text Lang
    ja
  • Article Type
    conference paper
  • Data Source
    • IRDB
    • CiNii Articles
    • KAKEN

Report a problem

Back to top