軽量のテキスト処理による部分類似単語列検出手法(「自動化:推論,発見,学習,データマイニング」及び一般) Similarity Sequences extracting method using efficient text processing

この論文にアクセスする

この論文をさがす

著者

    • 竹田 隆治 Takeda Takaharu
    • 総合研究大学院大学複合科学研究科情報学専攻 The Graduate university for Advanced Studies, the School of Multidisciplinary Science, the Department of Informatics
    • 高須 淳宏 Takasu Atsuhiro
    • 国立情報学研究所コンテンツ科学研究系 National Institute of Informatics, Office for Promotion of Research Projects, Research Center for Testbeds and Prototyping

抄録

同一の話題に関して書かれた文書中には類似した表現や文字列が頻出する。完全に同一の文字列であれば、検索用インデックス作成手法などでそれらがどこに出現したかを特定することは容易だが、部分的に違う単語や違う表現などが含まれるとそれらは完全に別のものとして扱われる。既存の曖昧検索などではユーザがクエリーを与え、システムがそれに対するレスポンスを返すのであるが、本研究では任意のコーパスに対して、どの部分とどの部分が類似しているのかのマッピングを行う。

Similar expression and character string appear frequently during documents written about the same topic. It is easy to identify where they appeared by indexing for searches, if those are the perfect matching string, but they are taken aside when a string is different partially or includes different expression. Usually query is given by user in approximate pattern matching, the system only finds most suitable document, however we would propose the mapping method that which part and which part resemble self-organizing in this study.

収録刊行物

  • 電子情報通信学会技術研究報告. AI, 人工知能と知識処理   [巻号一覧]

    電子情報通信学会技術研究報告. AI, 人工知能と知識処理 107(78), 33-38, 2007-05-24  [この号の目次]

    一般社団法人電子情報通信学会

参考文献:  8件

参考文献を見るにはログインが必要です。ユーザIDをお持ちでない方は新規登録してください。

各種コード

  • NII論文ID(NAID)
    110006292241
  • NII書誌ID(NCID)
    AN10013061
  • 本文言語コード
    JPN
  • 資料種別
    ART
  • ISSN
    09135685
  • NDL 記事登録ID
    8764362
  • NDL 雑誌分類
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL 請求記号
    Z16-940
  • データ提供元
    CJP書誌  NDL  NII-ELS 
ページトップへ