RUS  ENG
Полная версия
СЕМИНАРЫ



Рандомизированный подход к обучению в условиях отсутствия разметки и малого количества данных

А. А. Бояров

Санкт-Петербургский государственный университет

Аннотация: За последние несколько лет стремительное развитие получили различные методы машинного обучения, которые имеют широкое применение в распознавании образов, интеллектуальной обработке текстов, робототехнике, автономных аппаратах, рекомендательных системах. Наибольшего прогресса получилось добиться в развитии алгоритмов обучения с учителем. Методы этого семейства основаны на минимизации некоторой функции потерь с помощью градиентных методов. При наличии большого объёма размеченных и «прочищенных» данных такой подход даёт хорошие результаты. Однако, подобных наборов данных доступно относительно немного для относительно небольшого круга задач. Одной из важнейших проблем, связанных с таким типом данных, является проблема самообучения и один из её частных случаев — задача кластеризации. Отсутствие заранее известной структуры и разметки данных является источником неопределённостей, для работы с которым необходимо разрабатывать новые подходы.
Другой вид неопределённостей, связанный с обработкой слабо размеченных данных, возникает в задаче обучения и классификации по малому количеству примеров (few-shot learning), которая входит в более широкий круг задач мета-обучения (meta-learning). В задаче такого типа алгоритму доступно для обучения некоторый набор классов с небольшим количеством размеченных данных. Он должен обучиться по нескольким примерам (1, 5, 10) на класс с высоким качеством определять этот класс. Кроме того, в процессе эксплуатации алгоритму на вход будут приходить представители новых классов, которых не было в его обучающей выборке. Алгоритм должен иметь возможность адаптироваться для работы с этими новыми классами, не теряя при этом в качестве на старых классах.
Целью работы является разработка и математическое обоснование алгоритмов обучения, устойчивых к неопределённостям, возникающим в условиях отсутствия размеченных данных или их малого количества.


© МИАН, 2024