Bi-LSTMを用いた中古日本語の文境界推定

書誌事項

タイトル別名
  • Sentence Boundary Estimation of Ancient Japanese Using Bi-LSTM

抄録

古典籍・古文書の可読性を向上できれば,文学,歴史,文化から災害記録など多くの研究を加速できる.このため,機械による自動翻刻への期待がある.文字認識やかな漢字変換など処理は様々にあるが,本稿ではその中の文境界推定に取り組む.形態素を入力とし,また音声認識における現代語での文境界推定で高い性能を誇るBi-LSTMを用いて,中古日本語の文境界を推定するモデルを構築した.平安時代の文献からなるコーパスに適用し,PR曲線のAUCで 0.894と高精度な結果を得た.また,1 名の専門家からのフィードバックでも高評価を得た.

To improve the readability of ancient Japanese books and documents, processes such as old character recognition, punctuation, and Hiragana-Kanji conversion are required. The automation of these processes will accelerate many research areas, including literature, historical and cultural analysis, and disaster records. In this paper, we focus on sentence boundary estimation. We develop a model for estimating sentence boundaries in ancient Japanese using Bi-LSTM, which has a high performance of sentence boundary estimation in modern natural language processing for speech recognition. When applied to a corpus consisting of literature from the Heian period, the AUC of the PR curve achieved 0.894. The model was also highly evaluated by an expert.

収録刊行物

詳細情報 詳細情報について

  • CRID
    1050855522064857984
  • NII論文ID
    170000183915
  • Web Site
    http://id.nii.ac.jp/1001/00208570/
  • 本文言語コード
    ja
  • 資料種別
    conference paper
  • データソース種別
    • IRDB
    • CiNii Articles

問題の指摘

ページトップへ