ニューラル機械翻訳におけるコーパスフィルタリングに関する固有表現に注目した分析

本間 広樹, 山岸 駿秀, 松村 雪桜, 小町 守

doi:10.11517/pjsai.jsai2019.0_4rin106

書誌事項

タイトル別名

Corpus Filtering Focusing on Named Entities for Neural Machine Translation

抄録

<p>ニューラル機械翻訳の学習に用いるコーパスの中には，機械翻訳システムの学習に悪影響を及ぼす文が存在することが考えられる。多くの out-of-vocabulary を含むようなノイズ文を学習コーパスから取り除くことで，より良い翻訳をできるモデルを学習することが見込まれる。固有表現の多くは低頻度なため out-of-vocabulary として扱われるため，本稿では「固有表現が多く含まれた文」に着目する。我々は byte pair encoding を用いる手法と固有表現抽出を用いる手法の2種類の手法を提案する。両手法で，日英の言語対の学習コーパスからノイズ文を取り除くことで，BLEUスコアが0.5ポイント統計的有意に改善した。分析ではどちらの手法でも名詞の接尾辞や冠詞，出力文長などの誤りが改善されていることが分かった。</p>

収録刊行物

人工知能学会全国大会論文集

人工知能学会全国大会論文集 JSAI2019 (0), 4Rin106-4Rin106, 2019

一般社団法人人工知能学会

詳細情報詳細情報について

CRID: 1390282763120938624

NII論文ID: 130007658892

DOI: 10.11517/pjsai.jsai2019.0_4rin106

本文言語コード: ja

データソース種別

JaLC
CiNii Articles

抄録ライセンスフラグ: 使用不可

ニューラル機械翻訳におけるコーパスフィルタリングに関する固有表現に注目した分析

書誌事項

抄録

収録刊行物

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

ニューラル機械翻訳におけるコーパスフィルタリングに関する固有表現に注目した分析

書誌事項

抄録

収録刊行物

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

参加プロジェクトリスト

詳細情報詳細情報について