大規模英語学習者コーパスを用いた英作文の文法誤り訂正の課題分析
書誌事項
- タイトル別名
-
- An Analysis of Problems in Grammatical Error Correction of ESL Writings Using a Large Learner Corpus of English
この論文をさがす
抄録
英語学習者の書く作文には様々な種類の文法誤りが含まれている.英語学習者の文法誤りの自動訂正に取り組んだ先行研究は,訂正する誤りの種類を数種類に限定して取り組んできた.文法誤りの中には,ヒューリスティックスを用いたルールで訂正できるものもあれば,長距離の依存関係や選択選好を考慮した統計的なモデルを用いないと訂正が難しいものもある.しかしながら,学習者の書いたテキストに対するアノテーションは時間がかかるため,最近になるまで一般に入手できる大規模な学習者コーパスは存在していなかった.そのため,英語学習者の文法誤り訂正で学習者コーパスのサイズがどのように影響するかは分かっていない.そこで,本稿では,学習者の誤りが訂正された大規模な学習者コーパスを用いてフレーズベース統計的機械翻訳の手法によって誤り訂正を行ない,学習者コーパスのサイズを変化させ,学習者コーパスのサイズがどのタイプの文法誤りに影響があるかを調べた.English as a Second Language (ESL) learners' writings contain various grammatical errors. Previous research on automatic error correction for ESL learners' grammatical errors deals with restricted types of learners' errors. In grammatical errors, some errors can be corrected by rules using heuristics, while others are difficult to correct without statistical model using native corpora and/or learner corpora. However, since error annotation to learners' text is time-consuming, it was not until recently that large scale learner corpora become publicly available. As a result, little is known about the effect of learner corpus size in ESL grammatical error correction. Thus, in this paper, we build an error correction system with phrase-based statistical machine translation (SMT) technique trained on a large scale error-tagged learner corpus to see the effect of learner corpus size for each type of grammatical errors. We show that phrase-based SMT approach is effective in correcting frequent errors that can be identified by local context, and that it is difficult for phrase-based SMT to correct errors that need long range contextual information.
収録刊行物
-
- 研究報告自然言語処理(NL)
-
研究報告自然言語処理(NL) 2012 (5), 1-8, 2012-11-15
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1570572702889190400
-
- NII論文ID
- 110009486731
-
- NII書誌ID
- AN10115061
-
- 本文言語コード
- ja
-
- データソース種別
-
- CiNii Articles