統語的一貫性と非冗長性を重視した機械翻訳のための能動学習手法

  • 三浦 明波
    奈良先端科学技術大学院大学情報科学研究科
  • Neubig Graham
    奈良先端科学技術大学院大学情報科学研究科 カーネギーメロン大学言語技術研究所
  • Paul Michael
    株式会社ATR-Trek
  • 中村 哲
    奈良先端科学技術大学院大学情報科学研究科

書誌事項

タイトル別名
  • Selecting Syntactic, Non-redundant Segments in Active Learning for Machine Translation
  • トウゴテキ イッカンセイ ト ヒジョウチョウセイ オ ジュウシシタ キカイホンヤク ノ タメ ノ ノウドウ ガクシュウ シュホウ

この論文をさがす

抄録

<p>能動学習は機械学習において,逐次的に選択されたデータに対してのみ正解ラベルを付与してモデルの更新を繰り返すことで,少量のコストで効率的に学習を行う枠組みである.この枠組みを機械翻訳に適用することで,人手翻訳のコストを抑えつつ高精度な翻訳モデルを学習可能である.機械翻訳のための能動学習では,人手翻訳の対象となる文またはフレーズをどのように選択するかが学習効率に大きな影響を与える要因となる.既存研究による代表的な手法として,原言語コーパスの単語 n-gram 頻度に基づき n-gram カバレッジを向上させる手法の有効性が知られている.この手法は一方で,フレーズの最大長が制限されることにより,句範疇の断片のみが提示されて,人手翻訳が困難になる場合がある.また,能動学習の過程で選択されるフレーズには,共通の部分単語列が繰り返し出現するため,単語数あたりの精度向上率を損なう問題も考えられる.本研究では原言語コーパスの句構造解析結果を用いて句範疇を保存しつつ,包含関係にある極大長のフレーズのみを人手翻訳の候補とするフレーズ選択手法を提案する.本研究の提案手法の有効性を調査するため,機械翻訳による擬似対訳を用いたシミュレーション実験および専門の翻訳者による人手翻訳と主観評価を用いた実験を実施した.その結果,提案手法によって従来よりも少ない単語数の翻訳で高い翻訳精度を達成できることや,人手翻訳時の対訳の品質向上に有効であることが示された.</p>

収録刊行物

  • 自然言語処理

    自然言語処理 24 (3), 463-489, 2017

    一般社団法人 言語処理学会

参考文献 (21)*注記

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ