RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика, телекоммуникации и управление // Архив

Научно-технические ведомости СПбГПУ. Информатика. Телекоммуникации. Управление, 2015, выпуск 2-3(217-222), страницы 105–114 (Mi ntitu107)

Системный анализ и управление

Представление трехмерных объектов с помощью ансамбля трансформирующих автоассоциаторов

А. А. Хуршудов

Кубанский государственный технологический университет

Аннотация: Одна из ключевых задач машинного обучения в области компьютерного зрения – получение качественных представлений визуальных данных, остающихся устойчивыми к изменениям угла обзора, позиции в сцене, эффектов освещения или текстуры изображенного объекта. Существующие современные модели сверточных сетей, такие как GoogLeNet или AlexNet успешно решают эту задачу в некоторых условиях, формируя инвариантные представления, достаточные для эффективной классификации множества объектов. Некоторые исследователи (Хинтон, Крижевский и др.), однако предполагают, что используемый этими моделями подход, несмотря на впечатляющие результаты в задачах классификации, является фундаментально ошибочным по отношению к тому, что должна представлять собой эффективная зрительная система: инвариантные представления не способны реагировать на изменения положения объекта в пространстве. Упомянутые авторы предполагают,что целью любой качественной модели зрительной системы должна быть не инвариантность, а эквивариантность – способность изменять представление объекта предсказуемым образом в ответ на наблюдаемые пространственные преобразования.
В данной статье использована предложенная Хинтоном архитектура подобной эквивариантной модели трансформирующего автоассоциатора, модифицированная таким образом, чтобы обнаруживать низкоуровневые композиционные признаки в изображениях трехмерных объектов. С применением SVM-классификатора и использованием свойств трансформирующего автоассоциатора продемонстрирована возможность представления сложных трехмерных форм в виде ансамбля ограниченного количества автоассоциаторов, каждый из которых соответствует локальному признаку объекта. Благодаря способности трансформирующего автоассоциатора определять не только присутствие выученного признака, но и его пространственные параметры, становится также возможным соотносить вместе изображения одних и тех же объектов в условиях, существенно различных на уровне пикселей.

Ключевые слова: трансформирующий автоассоциатор, одноразовое обучение, эквивариантное представление, капсулы.

УДК: 004.923

DOI: 10.5862/JCSTCS.217-222.9



© МИАН, 2024