A study on recognition of objects with multiple configurations by using limited data sets 少ないデータモデルを用いた多重形態対象物の認識に関する研究

Search this Article

Author

    • 韓, 越興 カン, エツキョウ

Bibliographic Information

Title

A study on recognition of objects with multiple configurations by using limited data sets

Other Title

少ないデータモデルを用いた多重形態対象物の認識に関する研究

Author

韓, 越興

Author(Another name)

カン, エツキョウ

University

電気通信大学

Types of degree

博士 (工学)

Grant ID

甲第632号

Degree year

2011-03-24

Note and Description

博士論文

2010

物体の認識はコンピュータビジョンや画像の理解にとって重要な課題の一つである。これまで、多くの物体認識手法が研究されてきた。しかし、従来の物体認識手法は、物体の形態が変化しない前提に基づいた研究であり、認識したい物体の種類および形態はデータベースのサイズによって制限されていた。データベース中のデータモデルが少なければ、認識できる物体は限られたものになってしまう。しかし、現実に存在する対象物、例えばハサミ、プライヤ、走る人などのように様々な形態をとる対象物や異なる角度、異なる位置から撮影した写真やビデオ中の物体を認識することは困難である。本研究における多重形態対象物の認識(RMCO :Recognition of Multiple Configurations ofObjects)とは様々な形態を持つ対象物や異なる方向・位置から撮影した写真やビデオ中の対象物を認識することである。従来RMCO を実現するために、データベースに大量のモデルデータを用意する手法が提案されている。しかしこの手法だけを利用する場合、データベースのサイズが巨大になってしまうという問題がある。さらに認識の有効性と頑健性も低下してしまう。物体をいろいろな角度と位置から観察するとしても、それらのデータモデルを事前に準備しなければならない。即ち、対象物には様々な形態が存在し、一つの形態に対して一つのモデルデータを準備しなければならず、RMCO を実現するためには、データベース中に膨大なデータモデルを用意することが必要となる。本論文では、RMCO を実現するための新しいアルゴリズムを提案する。これは、まず対象物の特徴点を抽出し、一つの射影された点にとして、pre-shapespace に射影する。次に、pre-shape space(前形状空間)中で、二つの射影された点の間の最短のパス、即ち測地的距離のパスを求め、このパスに沿って新しいモデルデータを生成する。即ち、新しい物体を認識するためにデータベースの実効的なサイズを拡張することが可能である。この新しいモデルデータを用いることで、Shape Space Theory(形状空間理論)に基づいて、データベース中に用意されていない状態の対象物の認識を行うことができる。Shape SpaceTheory (形状空間理論) を用いる利点は、物体を多次元空間上に射影された点やベクトルとして表せることである。そのため、Shape space 中では、物の移動、回転、サイズの変化を考える必要がない。ユークリッド空間中で、移動、回転、サイズの変化は、一つ射影された点として shape space に射影されるからである。Shape space 中で考える距離は, Procrustean 距離である。二つ物体のprocrustean 距離が近いと、この二つ物体の相似度は高いとみなすことができる。そのため、Procrustean 距離を対象物を認識する指標として用いることができる。RMCO を頑健なものとするために、本論文では次の三つ課題についての研究成果を示す:物体から特徴点(Landmark)を得ることは、Shape space theory (形状空間理論)を用いる際に重要な処理である。本論文では、shape space theory (形状空間理論) を用いるための特徴点の取得方法を提案した。Pre-shape space中での最短距離を計算し、新しいデータモデルを構築することで、データベースを拡張する方法を提案した。このアルゴリズムを利用することで、少ないデータモデルから様々状態示すデータモデルの生成が可能をたり、頑健なRMCOが実現できる。最後に、shape space中での物体の認識を行うための方法を提案した。前述の方法によって、RMCOを頑健にすることが可能であるため、従来のshape spacetheory (形状空間理論) を利用した物体の認識手法と異なり、RMCOの自現が容易となった。本論文では、まず従来の物体認識手法について紹介する。次に、pre-shapespace theory とshape space theory (形状空間理論) の詳細を述べる。本研究で行う物体の特徴点を抽出するためのアルゴリズムをについて述べ、さらにpre-shape space 中でデータベースの内容とサイズを拡大する手法について述べ、最後にshape space 中での物体認識を行う手法について述べる。In computer vision area, object recognition is the science that develops the theoretical andalgorithmic basis by which useful information about the world can be extracted and analyzedfrom a set of images. Object recognition has been an area of research for more than thirty years.A large variety of methods have been proposed for visual object recognition. Current objectrecognition systems are generally limited to the recognition of objects which are present in theirdatabase and any deviation from these objects renders the object in the scene as unrecognizable.Since recognition systems ultimately need to be designed for operation in the real world, wherethe environments are unstructured, it is reasonable to require that the system has the abilityto learn new objects that it may encounter and add them to the database. This ability tolearn new inputs whilst retaining previous instances is referred to as the plasticity property.In addition, it is important that generalized representations of an object are developed fromtraining so that objects in scenes where the imaging mechanism is degraded by noise or otherspurious occurrences can still be recognized.Most previous works on object recognition are based on the condition of view-invariantobjects and the range of the observed objects is determined by the size of the database. If thedata in the database are limited, the ability of recognizing objects is constrained. Therefore, thesize of database of almost every system is too big and one database is used to recognize a type ofobjects. But in fact, a lot of objects possess many of their own con?gurations, such as scissors,pliers, and even humans while walking. Furthermore, the photograph may be taken from variousangles and positions. The images in a photograph may possess di?erent con?gurations from realobjects. Recognition of Multiple Con?gurations of Objects (RMCO) is de?ned as a kind of objectrecognition of whose shapes include the ones observed at various angles and positions and possesstheir own con?gurations.Humans can easily recognize various con?gurations of an object. Our brain can supply ahigh-e±cient system for self-learning which includes object recognition. For example, humanscan recognize objects taken from various angles and positions, though they even watched theobserved objects from a di?erent angle and position. But for machines or robots, it is di±cultto achieve RMCO. The main di±culty lies in the tremendous view variability associated withthe images of a given object. For example, depending on the viewing angle, the pictures of acar may look di?erent. As a result, an algorithm designed based on a single or a few views maynot work on a picture of the object taken from a new viewing position.To achieve e±cient and robust RMCO, some approaches have been proposed in this thesis.These approaches include:? Obtain landmarks from object of two-dimensional images;? Augment database in pre-shape space;? Recognize objects in shape space.The present work is based on the shape space theory. Using the shape space theory toachieve object recognition, selecting landmarks and ?nding their correspondence are an impor-tant step. Landmarks of an object and all its similarity transformed versions are identi?ed witha single point or vector into a high-dimensional manifold called shape space. Because vectors oflandmarks of di?erent numbers can not be projected into speci?ed dimensional shape space, itis important to obtain landmarks of speci?ed numbers from objects. In the present work, somealgorithms have been proposed to obtain landmarks from objects. These algorithms are robustfor objects with noises and one of these algorithms can ?x the number of landmarks.Augmenting database is an important work during the present study. Firstly, a shortestpath is obtained in pre-shape space, which is the Geodesic distance path, between two featurevectors in pre-shape spaces; along this obtained path, a series of data can be generated, whichcan be used to recognize the observed objects by using shape space theories. In other words,the database size can be augmented to recognize more objects for machines and robots.Recognizing objects is the target of the present work. After the above works, we can obtainenough data and augment the database. By using the data of the augmented database, moreobjects can be recognized with shape space theory.

14access

Codes

  • NII Article ID (NAID)
    500000547460
  • NII Author ID (NRID)
    • 8000000549552
  • Text Lang
    • eng
  • NDLBibID
    • 023263101
  • Source
    • Institutional Repository
    • NDL ONLINE
Page Top