抄録
計算機による画像認識を実現することにより画像検索等で応用が期待され,様々な手法が提案されている,画像認識には物体事態を認識する他に,風景を認識するシーン認識という分野が存在する.近年シーン認識の手法に,分割した局所画像から画像全体を認識するセマンティックモデルが提案された.しかしこの手法には静的なグリッドを用いるため幅広いシーン画像には対応しきれていないという問題がある.本研究ではそれを改良し,複数サイズの局所画像を用いる多重解像度セマンティックモデルという手法について述べる.この手法は分類結果が信頼できるかどうかを計算し,その結果をもとに最適なグリッド数を選択,分類する手法である.その手法と従来の手法との比較実験を行い,提案手法が優れていることを示す.
In this paper, we propose a multi-level resolution semantic modeling for automatic scene recognition. The basic idea of the semantic modeling is to classify local image regions into semantic concept classes such as water, sunset, or sky, and use occurrence frequency of local region's semantic concepts for global image representation. However, how to decide size of the local image regions is a trial problem. The optimized region size would be dynamically changing for different scene or concept types. Therefore, this paper proposed a dynamical region size (Multi-level resolution) of local image regions for semantic concept model, and fusion the probabilities to scene types of several resolutions for final recognition of a scene image. Experimental results show that the recognition rate using our proposed algorithm is much better than that using the conventional semantic modeling method for scene recognition.