2000-NL-138-7 対訳コーパスにおける低頻度語の性質 : 訳語対自動抽出に向けた基礎研究 Low-frequency Words in Bilingual Corpora : A Step towards Automatic Extraction of Bilingual Word Pairs

抄録

既に辞書に載っている訳語対を, 対訳コーパスから自動抽出してもメリットは少ない。コーパス中の頻度が高い対は既に辞書に載っているであろう。対訳コーパスから自動抽出すべき訳語対は, 頻度の低い訳語対である。そのような前提から本研究では, これまで研究されてきた統計的な訳語対抽出手法では, 低頻度訳語対の抽出が難しいことを示す。具体的には, 統計的手法では同じ言語の2語が常に同じアラインメントに共起する場合, 訳語が決定できない問題を取り上げる。頻度の低い語同士はこうした決定不能状況に陥りやすい。本研究では, 実際の対訳コーパス中で決定不能状況にある低頻度語の量・質を調べ, 訳語対抽出手法の改善方向を検討した。

The high-frequency bilingual word pairs in bilingual corpora are already listed in the dictionaries. It is the low-frequency pairs that we have to extract. Based on that idea, we examine the method for automatically extracting bilingual word pairs from corpora and show that the statistical method, which has been studied intensively so far, is not suitable for the task. If two words J1 and J2 which belong to the same language always co-occur in the same alignments, the statistical method cannot determine which word is the correct translation of word E which belong to the other language. We saw many of the low-frequency words are in the above situation.

収録刊行物

情報処理学会研究報告. 自然言語処理研究会報告   [巻号一覧]

情報処理学会研究報告. 自然言語処理研究会報告 2000(65), 47-54, 2000-07-18  [この号の目次]

一般社団法人情報処理学会

参考文献:  22件

参考文献を見るにはログインが必要です。ユーザIDをお持ちでない方は新規登録してください。

被引用文献:  2件

被引用文献を見るにはログインが必要です。ユーザIDをお持ちでない方は新規登録してください。

プレビュー

プレビュー

各種コード

  • NII論文ID(NAID) :
    110002935219
  • NII書誌ID(NCID) :
    AN10115061
  • 本文言語コード :
    JPN
  • 資料種別 :
    ART
  • ISSN :
    09196072
  • NDL 記事登録ID :
    5740676
  • NDL 雑誌分類 :
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL 請求記号 :
    Z14-1121
  • 収録DB :
    CJP書誌  CJP引用  NDL  NII-ELS 

書き出し