大規模英語学習者コーパスを用いた英作文の文法誤り訂正の課題分析

水本智也, 林部祐太, 小町守, 永田昌明, 松本裕治

英語学習者の書く作文には様々な種類の文法誤りが含まれている．英語学習者の文法誤りの自動訂正に取り組んだ先行研究は，訂正する誤りの種類を数種類に限定して取り組んできた．文法誤りの中には，ヒューリスティックスを用いたルールで訂正できるものもあれば，長距離の依存関係や選択選好を考慮した統計的なモデルを用いないと訂正が難しいものもある．しかしながら，学習者の書いたテキストに対するアノテーションは時間がかかるため，最近になるまで一般に入手できる大規模な学習者コーパスは存在していなかった．そのため，英語学習者の文法誤り訂正で学習者コーパスのサイズがどのように影響するかは分かっていない．そこで，本稿では，学習者の誤りが訂正された大規模な学習者コーパスを用いてフレーズベース統計的機械翻訳の手法によって誤り訂正を行ない，学習者コーパスのサイズを変化させ，学習者コーパスのサイズがどのタイプの文法誤りに影響があるかを調べた．English as a Second Language (ESL) learners' writings contain various grammatical errors. Previous research on automatic error correction for ESL learners' grammatical errors deals with restricted types of learners' errors. In grammatical errors, some errors can be corrected by rules using heuristics, while others are difficult to correct without statistical model using native corpora and/or learner corpora. However, since error annotation to learners' text is time-consuming, it was not until recently that large scale learner corpora become publicly available. As a result, little is known about the effect of learner corpus size in ESL grammatical error correction. Thus, in this paper, we build an error correction system with phrase-based statistical machine translation (SMT) technique trained on a large scale error-tagged learner corpus to see the effect of learner corpus size for each type of grammatical errors. We show that phrase-based SMT approach is effective in correcting frequent errors that can be identified by local context, and that it is difficult for phrase-based SMT to correct errors that need long range contextual information.

大規模英語学習者コーパスを用いた英作文の文法誤り訂正の課題分析

書誌事項

この論文をさがす

抄録

収録刊行物

詳細情報詳細情報について

書き出し

問題の指摘

大規模英語学習者コーパスを用いた英作文の文法誤り訂正の課題分析

書誌事項

この論文をさがす

抄録

収録刊行物

詳細情報 詳細情報について

書き出し

問題の指摘

参加プロジェクトリスト

詳細情報詳細情報について