ランダム・プロジェクションによるベクトル空間情報検索モデルの次元削除  [in Japanese] Dimensionality Reduction of Vector Space Information Retrieval Model Based on Random Projection  [in Japanese]

Access this Article

Search this Article

Author(s)

Abstract

ベクトル空間モデルは情報検索における代表的な検索モデルである. ベクトル空間モデルでは文書を索引語の重みベクトルで表現するが, 文書ベクトルは一般に要素数が非常に多く, スパースなベクトルになるため, 検索時間の長さや必要なメモリの量が大きな問題となる. 本論文では, この問題を解決するため, ベクトル空間モデルにおけるベクトルの次元圧縮を行う手法としてランダム・プロジェクションを用いた検索モデルを提案する. その有効性を評価するために, 評価用テストコレクションであるMEDLINEを利用して, 検索実験を行った. その結果, ランダム・プロジェクションはLSI (Latent Semantic Indexing) に比べ高速で, かつ同等な検索性能を持つ次元圧縮手法であることが確認された. また, ランダム・プロジェクションで次元圧縮に必要な行列を得るために, 球面κ平均アルゴリズムで得られる概念ベクトルの利用を提案する. 同様に検索実験を行った結果, 任意のベクトルを用いた検索性能に比べ改善され, 概念ベクトルが検索性能の向上に有効であることが確認された.

Vector space model is a conventional information retrieval model, in which text documents are represented as high-dimensional and sparse vectors using words as features in a multidimensional space. These vectors require a large number of computer resources and it is difficult to capture underlying concepts referred to by the terms.In this paper, we present a technique of an information retrieval model using a random projection to project document vectors to a low-dimensional space as a way of solving these problems. To evaluate its efficiency, we show results of retrieval experiments on the MEDLINE test collection. Experiments show that the proposed method is faster than LSI (Latent Semantic Indexing) and efficient close to the LSI. In addition, we propose to apply a concept vector, which random projection needs for dimensionality reduction, produced by a spherical κ-means algorithm. A result of this evaluation shows that the concept vector captures the underlying concepts of the corpus effectively.

Journal

  • Journal of Natural Language Processing

    Journal of Natural Language Processing 8(1), 5-19, 2001-01-10

    The Association for Natural Language Processing

References:  19

Cited by:  6

Codes

  • NII Article ID (NAID)
    10008830167
  • NII NACSIS-CAT ID (NCID)
    AN10472659
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • ISSN
    13407619
  • NDL Article ID
    5634280
  • NDL Call No.
    Z21-B168
  • Data Source
    CJP  CJPref  NDL  J-STAGE 
Page Top