Dynamic Processing of Spelling Variations in Web Filtering
-
- IDE Atsushi
- 奈良先端科学技術大学院大学
-
- AZUMA Ai
- 奈良先端科学技術大学院大学
-
- MATSUMOTO Yuji
- 奈良先端科学技術大学院大学
Bibliographic Information
- Other Title
-
- Web フィルタリング処理時における表記ゆれの動的解決
Search this article
Abstract
Web 上の文章には,意図的に誤変換された漢字などを含む,多くの表記ゆれ表現が存在しており,Web フィルタリングを行う上では表記ゆれに対応したシステムを構築することが有効である.本論文では表記ゆれ表現を同定する方法として,KAKASI による漢字かな変換機能と MeCab の分かち書き機能という 2 つの技術を利用した手法について提案する.意図的に誤変換された表記を抽出するために,KAKASI を用いた読み候補の作成を行い,その読み候補が妥当かどうかについての判断を MeCab を利用して行う.本手法の効果を実験によって確認した.Web documents tend to include a number of spelling variations. Especially, in Japanese pages, some variations are intentionally used to hide improper words or expressions. This paper proposes to cope with this problem in two steps: expansion of possible pronunciation by KAKASI and morphological analysis by MeCab. Alter an exhaustive expansion of pronunciation of Kanji characters by KAKASI, and matching with the dictionary of improper expressions, Japanese morphological analyzer MeCab analyses the original sentence assuming the matched expressions existed in its system dictionary. We verify the effectiveness of our idea through experiments using sentences extracted from a real BBS.
Journal
-
- 情報処理学会研究報告. 自然言語処理研究会報告
-
情報処理学会研究報告. 自然言語処理研究会報告 196 G1-G6, 2010-05-27
- Tweet
Details 詳細情報について
-
- CRID
- 1570572702053729664
-
- NII Article ID
- 110008003274
-
- NII Book ID
- AN10115061
-
- ISSN
- 09196072
-
- Text Lang
- ja
-
- Data Source
-
- CiNii Articles