共起関係を利用した対訳コーパスからの連語の対訳表現抽出

大森 久美子, 佐藤 健吾, 中西 正和

慣用表現や定型表現は, 連結している個々の単語の訳からその訳をとることは困難である. そのため, 機械翻訳においては, それらの表現をまとめて1単位として処理することが翻訳品質, さらに処理効率の向上につながると考えられている. 本稿では, 2語, 又は3語連なって1つの意味を表す連語の対訳表現を対訳コーパスから自動的に抽出する手法を提案する. 本手法では, 対訳コーパス中の文の対訳関係を前提とせず, コーパス中の単語との共起関係, 及び既存の単語辞書を用いて対訳表現を抽出する. まず, n-gram統計, 及び前後に隣接する単語とのエントロピー値を用いて, 日英それぞれのコーパスから連語表現を抽出する. 次に, 各英語連語に対して共起集合を作成して, 既存の単語辞書を用いて各日本語表現との間の対応度を計算し, 最も高い類似性を示す日本語表現を対訳表現として抽出する. 本手法を対訳新聞記事データに適用した結果, 英語連語1,282表現に対し72.1%の精度で正しい対訳日本語表現を抽出することができた.

共起関係を利用した対訳コーパスからの連語の対訳表現抽出

書誌事項

この論文をさがす

抄録

収録刊行物

被引用文献 (5)*注記

参考文献 (10)*注記

詳細情報詳細情報について

書き出し

問題の指摘

共起関係を利用した対訳コーパスからの連語の対訳表現抽出

書誌事項

この論文をさがす

抄録

収録刊行物

被引用文献 (5)*注記

参考文献 (10)*注記

詳細情報 詳細情報について

書き出し

問題の指摘

参加プロジェクトリスト

詳細情報詳細情報について