中古仮名文学作品の形態素解析

書誌事項

タイトル別名
  • Morphological Analysis of Kana Literature in Early Middle Japanese
  • チュウコ カナ ブンガク サクヒン ノ ケイタイソ カイセキ

この論文をさがす

抄録

古典語研究の精密化・高度化のためには単語の情報が付いたコーパスが必要とされる。そうしたコーパスの構築のためにはコンピューターによる古典語の形態素解析(自動品詞分解)が必要だが,従来,古典語の形態素解析は困難であるとされていた。こうした中で,筆者らは,既存の解析器と組み合わせて実用的な解析を可能にする電子辞書「中古和文UniDic」を新たに開発した。この辞書は,統計的機械学習の手法に基づき,電子化辞書UniDicの見出し語を拡充し,手本となる単語情報つきの古典語コーパスを作成することで開発された。これにより,平安時代の仮名文学作品について約97%(辞書への未登録語が存在する場合は約96%)の精度で正しく解析することが可能になった。この辞書による解析結果を用いることで,従来は不可能だった用例検索や統計的手法にもとづく新しい古典語研究が可能になった。UniDicは短単位という揺れの少ない斉一な単位を採用しているため,作品や時代を超えて解析結果を比較することができる。中古和文UniDicは無償で一般公開されており,国語研究所の「日本語歴史コーパス 平安時代編」の構築に利用されている。

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ