英音素変換を用いたカタカナ異表記の自動生成  [in Japanese] Automatic Katakana Variants Generation via English Phonemes  [in Japanese]

Search this Article

Author(s)

Abstract

情報検索おける問題の一つに,文字表記の揺れ(異表記)があげられる.例えば,「ロサンゼルス」は「ロスアンゼルス」や「ロサンジェルス」のようにも表記が可能であるため,これらのうち任意の表記が検索語として与えられた場合,情報検索システムは他の表記も考慮することが望ましい.特に,日本語においては上記のようなカタカナ異表記が多く存在しており,これに対処するために様々な研究が行われている.しかし,これらの研究では異表記の生成に限られたコーパスを用いているため,データの過疎性に起因する問題が生じやすい.そこで本論文では,原言語の音韻がカタカナ表記に関係している点に着目し,英語由来のカタカナ語を確率的に原言語音素列に変換,さらにその音素列をカタカナ語に逆変換することで複数のカタカナ異表記を自動生成する手法を提案する.また,NTCIR-3のWeb検索テストコレクションを用いた評価実験について報告する.

In information retrieval and other text processing applications, there has been a problem concerned with variant notations. For example, "Los Angeles" can be written as "rosuanjerusu, " "rosanzerusu, " or "rosuanzerusu" in Japanese. Thus, it would be desirable that a search system considers all the notations given any of them as a query. Although, there has been much research conducted for dealing with the problem, the previous work typically relied on the katakana rewriting rules derived from Japanese corpora or search engine logs, which apt to be suffered from the data sparseness problem. This paper proposes-based on our observation that a number of katakana variants are influenced by the pronunciation in the source language-a method to automatically generate katakana variants by back-transliterating a katakana word. The proposed method is evaluated on the NTCIR-3 Web retrieval test collection.

Journal

  • IPSJ SIG Notes

    IPSJ SIG Notes 181, 59-64, 2007-09-25

    Information Processing Society of Japan (IPSJ)

References:  10

Cited by:  1

Codes

  • NII Article ID (NAID)
    110006402900
  • NII NACSIS-CAT ID (NCID)
    AN10115061
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • ISSN
    09196072
  • NDL Article ID
    8938520
  • NDL Source Classification
    ZM13(科学技術--科学技術一般--データ処理・計算機)
  • NDL Call No.
    Z14-1121
  • Data Source
    CJP  CJPref  NDL  NII-ELS 
Page Top