Dynamic Processing of Spelling Variations in Web Filtering

Bibliographic Information

Other Title
  • Web フィルタリング処理時における表記ゆれの動的解決

Search this article

Abstract

Web 上の文章には,意図的に誤変換された漢字などを含む,多くの表記ゆれ表現が存在しており,Web フィルタリングを行う上では表記ゆれに対応したシステムを構築することが有効である.本論文では表記ゆれ表現を同定する方法として,KAKASI による漢字かな変換機能と MeCab の分かち書き機能という 2 つの技術を利用した手法について提案する.意図的に誤変換された表記を抽出するために,KAKASI を用いた読み候補の作成を行い,その読み候補が妥当かどうかについての判断を MeCab を利用して行う.本手法の効果を実験によって確認した.Web documents tend to include a number of spelling variations. Especially, in Japanese pages, some variations are intentionally used to hide improper words or expressions. This paper proposes to cope with this problem in two steps: expansion of possible pronunciation by KAKASI and morphological analysis by MeCab. Alter an exhaustive expansion of pronunciation of Kanji characters by KAKASI, and matching with the dictionary of improper expressions, Japanese morphological analyzer MeCab analyses the original sentence assuming the matched expressions existed in its system dictionary. We verify the effectiveness of our idea through experiments using sentences extracted from a real BBS.

Journal

References(5)*help

See more

Details 詳細情報について

  • CRID
    1570572702053729664
  • NII Article ID
    110008003274
  • NII Book ID
    AN10115061
  • ISSN
    09196072
  • Text Lang
    ja
  • Data Source
    • CiNii Articles

Report a problem

Back to top