抄録
同一の話題に関して書かれた文書中には類似した表現や文字列が頻出する。完全に同一の文字列であれば、検索用インデックス作成手法などでそれらがどこに出現したかを特定することは容易だが、部分的に違う単語や違う表現などが含まれるとそれらは完全に別のものとして扱われる。既存の曖昧検索などではユーザがクエリーを与え、システムがそれに対するレスポンスを返すのであるが、本研究では任意のコーパスに対して、どの部分とどの部分が類似しているのかのマッピングを行う。
Similar expression and character string appear frequently during documents written about the same topic. It is easy to identify where they appeared by indexing for searches, if those are the perfect matching string, but they are taken aside when a string is different partially or includes different expression. Usually query is given by user in approximate pattern matching, the system only finds most suitable document, however we would propose the mapping method that which part and which part resemble self-organizing in this study.