抄録
既に辞書に載っている訳語対を, 対訳コーパスから自動抽出してもメリットは少ない。コーパス中の頻度が高い対は既に辞書に載っているであろう。対訳コーパスから自動抽出すべき訳語対は, 頻度の低い訳語対である。そのような前提から本研究では, これまで研究されてきた統計的な訳語対抽出手法では, 低頻度訳語対の抽出が難しいことを示す。具体的には, 統計的手法では同じ言語の2語が常に同じアラインメントに共起する場合, 訳語が決定できない問題を取り上げる。頻度の低い語同士はこうした決定不能状況に陥りやすい。本研究では, 実際の対訳コーパス中で決定不能状況にある低頻度語の量・質を調べ, 訳語対抽出手法の改善方向を検討した。
The high-frequency bilingual word pairs in bilingual corpora are already listed in the dictionaries. It is the low-frequency pairs that we have to extract. Based on that idea, we examine the method for automatically extracting bilingual word pairs from corpora and show that the statistical method, which has been studied intensively so far, is not suitable for the task. If two words J1 and J2 which belong to the same language always co-occur in the same alignments, the statistical method cannot determine which word is the correct translation of word E which belong to the other language. We saw many of the low-frequency words are in the above situation.