軽量のテキスト処理による部分類似単語列検出手法 Similarity Sequences extracting method using efficient text processing
この論文をさがす
著者
抄録
同一の話題に関して書かれた文書中には類似した表現や文字列が頻出する。完全に同一の文字列であれば、検索用インデックス作成手法などでそれらがどこに出現したかを特定することは容易だが、部分的に違う単語や違う表現などが含まれるとそれらは完全に別のものとして扱われる。既存の曖昧検索などではユーザがクエリーを与え、システムがそれに対するレスポンスを返すのであるが、本研究では任意のコーパスに対して、どの部分とどの部分が類似しているのかのマッピングを行う。
Similar expression and character string appear frequently during documents written about the same topic. It is easy to identify where they appeared by indexing for searches, if those are the perfect matching string, but they are taken aside when a string is different partially or includes different expression. Usually query is given by user in approximate pattern matching, the system only finds most suitable document, however we would propose the mapping method that which part and which part resemble self-organizing in this study.
収録刊行物
-
- 電子情報通信学会技術研究報告. AI, 人工知能と知識処理
-
電子情報通信学会技術研究報告. AI, 人工知能と知識処理 107(78), 33-38, 2007-05-31
一般社団法人電子情報通信学会