作文履歴をトレース可能な子供コーパスの構築

書誌事項

タイトル別名
  • A Written Child Corpus with Editing History Tags
  • サクブン リレキ オ トレース カノウ ナ コドモ コーパス ノ コウチク

この論文をさがす

抄録

自然言語処理や言語学においてコーパスは重要な役割を果たすが,従来のコーパスは大人の文章を集めたコーパスが中心であり,子供の文章を集めたコーパスは非常に少ない.その理由として,子供のコーパスに特有の様々な難しさが挙げられる.そこで,本論文では,子供のコーパスを構築する際に生じる難しさを整理,分類し,効率良く子供のコーパスを構築する方法を提案する.また,提案方法で実際に構築した「こどもコーパス」についても述べる.提案方法により,81人分(39,269形態素)のコーパスを構築することができ,提案方法の有効性を確認した.この規模は,公開されている日本語書き言葉子供コーパスとしては最大規模である.また,規模に加えて,「こどもコーパス」は作文履歴がトレース可能であるという特徴も有する.

収録刊行物

  • 自然言語処理

    自然言語処理 17 (2), 51-65, 2010

    一般社団法人 言語処理学会

被引用文献 (1)*注記

もっと見る

参考文献 (24)*注記

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ