Web フィルタリング処理時における表記ゆれの動的解決  [in Japanese] Dynamic Processing of Spelling Variations in Web Filtering  [in Japanese]

Search this Article

Author(s)

Abstract

Web 上の文章には,意図的に誤変換された漢字などを含む,多くの表記ゆれ表現が存在しており,Web フィルタリングを行う上では表記ゆれに対応したシステムを構築することが有効である.本論文では表記ゆれ表現を同定する方法として,KAKASI による漢字かな変換機能と MeCab の分かち書き機能という 2 つの技術を利用した手法について提案する.意図的に誤変換された表記を抽出するために,KAKASI を用いた読み候補の作成を行い,その読み候補が妥当かどうかについての判断を MeCab を利用して行う.本手法の効果を実験によって確認した.Web documents tend to include a number of spelling variations. Especially, in Japanese pages, some variations are intentionally used to hide improper words or expressions. This paper proposes to cope with this problem in two steps: expansion of possible pronunciation by KAKASI and morphological analysis by MeCab. Alter an exhaustive expansion of pronunciation of Kanji characters by KAKASI, and matching with the dictionary of improper expressions, Japanese morphological analyzer MeCab analyses the original sentence assuming the matched expressions existed in its system dictionary. We verify the effectiveness of our idea through experiments using sentences extracted from a real BBS.

Journal

  • 情報処理学会研究報告. SLP, 音声言語情報処理

    情報処理学会研究報告. SLP, 音声言語情報処理 81, G1-G6, 2010-05-27

    情報処理学会

References:  5

Codes

  • NII Article ID (NAID)
    110007990698
  • NII NACSIS-CAT ID (NCID)
    AN10442647
  • Text Lang
    JPN
  • Article Type
    ART
  • ISSN
    09196072
  • NDL Article ID
    025055155
  • NDL Call No.
    YH247-911
  • Data Source
    CJP  NDL  NII-ELS 
Page Top