Классификация изображений презентация

Содержание

Слайд 2

Классификация изображений

Популярный подход к анализу изображений
Визуальные слова
Детекторы: Харрис, LoG, DoG, Harris-Laplace
Дескрипторы: SIFT, C-SIFT,

PCA-SIFT и др.
Классификаторы: SVM (линейные, нелинейные, хи-квадрат) и др.
Randomized Trees [Amit & Geman, 1997];
Random Forests [Breiman, 2001].
Обнаружение людей

Слайд 11

Детекторы признаков

Эллиптический детектор признаков
Hessian-Affine detector
Maximally stable regions (MSER)
Регионы внимания

Слайд 12

Инвариантные детекторы

Characteristic scales (size of region)
Lindeberg and Garding ECCV 1994
Lowe ICCV 1999
Mikolajczyk and

Schmid ICCV 2001
Affine covariance (shape of region)
Baumberg CVPR 2000
Matas et al BMVC 2002 Maximally stable regions
Mikolajczyk and Schmid ECCV 2002
Schaffalitzky and Zisserman ECCV 2002
Tuytelaars and Van Gool BMVC 2000
Mikolajczyk et al., IJCV 2005
Нормализация формы и поворота

Слайд 13

Инвариантные детекторы

Слайд 15

Дескрипторы признаков

SIFT (распределение градиентов в патче)
SURF
HOG – Histogram of Gradients
FERNS
BRIEF [ECCV’10]
STIP (Spatial-Temporal)
Mikolajczyk and

Schmid CVPR 2003 - сравнений дескрипторов

Слайд 17

Визуальный поиск и распознавание

В каждом кадре обнаружить признаки с помощью инвариантного детектора
Описать признаки

при помощи дескриптора
Найти ближайшее соответствие между признаками двух кадров (Nearest Neighbor)
Поиск: оценить каждый кадр базы данных в соответствии с количеством совпадений

Слайд 18

Визуальный поиск и распознавание

Bag-of-words - гистограмма изображения по visual words
Отбрасывание пространственной информации обеспечивает

инвариантность
Хорошо для классификации кадра
Плохо для локализации объекта в кадре
98.3-100% правильного распознавания
Csurka et al 2004, Zhang et al 2005

Слайд 19

Плотные визуальные слова

Слайд 20

Визуальный поиск и распознавание

Sivic, J. and Zisserman, A.
Video Google: A Text Retrieval Approach

to Object Matching in Videos
Proceedings of the International Conference on Computer Vision (2003)
http://www.robots.ox.ac.uk/~vgg/publications/papers/sivic03.pdf
Demo: http://www.robots.ox.ac.uk/~vgg/research/vgoogle/
Chum, O., Philbin, J., Isard, M., Sivic, J. and Zisserman, A.
Total Recall: Automatic Query Expansion with a Generative Feature Model for
Object Retrieval
Proceedings of the International Conference on Computer Vision (2007)
http://www.robots.ox.ac.uk/~vgg/publications/papers/chum07b.pdf
Demo: http://www.robots.ox.ac.uk/~vgg/research/oxbuildings/
Philbin, J. and Zisserman, A.
Object Mining using a Matching Graph on Very Large Image Collections
Proc. of the Indian Conference on Vision, Graphics and Image Processing (2008)
http://www.robots.ox.ac.uk/~vgg/publications/papers/philbin08b.pdf

Слайд 21

FERNS

Альтернативный подход: очень быстрый и в меру точный классификатор
Бинарный тест, эффективно делящий классы
Использовать

несколько деревьев по случайным сабсетам исходного тренировочного набора
Ссылки:
Jamie Shotton, Andrew FItzgibbon, Mat Cook, Toby Sharp, Mark Finocchio, Richard Moore, Alex Kipman, Andrew Blake. Real-time Human Pose Recognition in Parts from Single Depth Images, CVPR'11
Gall et Lempitsky, Scalable Multi-class Object Detection, CVPR'11
Vincent Lepetit. Random FERNS: a simplified tree-like classifier
Vincent Lepetit. Real-Time Computer Vision, Microsoft Computer Vision School’11

Слайд 22

BRIEF

http://cvlab.epfl.ch

Слайд 23

Оценка классификатора

точность-полнота (Precison-Recall), Average Precision

Слайд 24

Дескрипторы

Слайд 25

Классификаторы

Слайд 26

Методы классификации

Слайд 27

Обнаружение людей

HOG: Histogram of Oriented Gradients + SVM
Методы, основанные на контурах, устарели
Dalal &

Triggs CVPR 2005 Pedestrian detection
Работает со многими другими категориями

Слайд 28

Обнаружение людей

Полный поиск скользящим окном – слишком долго
Каскадная классификация: начинать с более простых

классификаторов

Слайд 29

Обнаружение людей

Слайд 30

PASCAL Visual Object Classes (VOC) Challenge

Слайд 31

PASCAL Challenge

Слайд 32

Распознавание действий

STIP – Spatial-Temporal Interesting Points
Распознавание различных действий в видео-последовательностях
Ходьба, ползание, прыжки, курение,

еда, вождение автомобиля и т.п.

Слайд 33

Распознавание действий

Оптический поток – основной источник информации о движении в сцене, один из

базовых инструментов для компьютерного зрения
Для распознавания видео мы можем использовать те же подходы, что и к изображению, но переведя их в трёхмерные пространственно-временной объём
Скользящее окно
Особенности, детекторы и дескрипторы
Мешок слов и методы классификации

Слайд 34

Распознавание действий

Базы: Hollywood2, UCF Sports Actions, KTH Actions
Alexei A. Efros, Alexander C. Berg,

Greg Mori and Jitendra Malik. Recognizing Action at a Distance. ICCV 2003
I. Laptev and T. Lindeberg; "Space-Time Interest Points”, ICCV’2003
Ivan Laptev’s code
http://www.irisa.fr/vista/Equipe/People/Laptev/download.html#stip
Piotr's Image & Video Toolbox for Matlab
http://vision.ucsd.edu/~pdollar/toolbox/doc/index.html
Много полезных функций (k-means, meanshift, PCA, ferns, RBF, DOG-фильтры и т.д.)
Hessian executables:
http://homes.esat.kuleuven.be/~gwillems/research/Hes-STIP

Слайд 35

Тестовые базы

Zurich building image database
0.5GB
http://www.vision.ee.ethz.ch/showroom/zubud/index.en.html
Caltech 101, 256
30К+ изображений, 1.3GB
http://www.vision.caltech.edu/Image_Datasets/Caltech101/
ImageNet
http://www.image-net.org
~1.2 млн. классифицированных изображений, половина

размечена рамками
LabelMe
http://labelme.csail.mit.edu/index.html
Amazon Mechanical Turk (торговая площадка для классификации)
Oxford buildings dataset
Flicr, Bing, Google, Yandex
Middlebury stereo page
http://vision.middlebury.edu/stereo/
MRF Minimization
http://vision.middlebury.edu/MRF/
Multi-view stereo
http://vision.middlebury.edu/mview/
Optical flow
http://vision.middlebury.edu/flow/
Матирование изображений
http://www.alphamatting.com/
Списки наработок (Computer Vision Resources по разделам)
https://netfiles.uiuc.edu/jbhuang1/www/resources/vision/index.html
The Automatic Labeling Environment
http://cms.brookes.ac.uk/staff/PhilipTorr/ale.htm
ГрафиКон

Слайд 36

PASCAL

Конкурсы
Классификация
Поиск (bounding box)
Сегментация (точный контур)
Набор тестовых баз
Выделенный сервер для анализа поданных данных
Итоговый семинар

http://pascallin.ecs.soton.ac.uk/challenges/VOC/voc2009/index.html

Слайд 37

PETS
Performance evaluation of tracking and video surveillance workshop
Разные задачи
Слежение
Распознавание действий
Определение оставленных предметов
Набор видео

для каждой задачи с нескольких камер
http://winterpets09.net/

Слайд 38

15 classes

Слайд 40

Программное обеспечение

VLFeat
http://www.vlfeat.org/
STAIR Vision Library
http://ai.stanford.edu/~sgould/svl/
Infer.NET - фреймворк для решения задач машинного обучения, оптимизации, чего-то

байесовского и т.п., предназначен для использования с .NET-языками
OpenCV - динамично развивающаяся библиотека для компьютерного зрения
Matlab как основной инструмент лабораторных работ
Maple - хороший решатель для небольших задач (до 10-й размерности)
LibSVM
Pegasos: Primal Estimated sub-GrAdient SOlver for SVM
Другие библиотеки – почти НИКТО не может всё сделать сам
Имя файла: Классификация-изображений.pptx
Количество просмотров: 31
Количество скачиваний: 0