Аннотация:
Проведен анализ основных подходов, которые используют разработчики нейросетевых алгоритмов для подготовки обучающих данных и формирования обучающих выборок. Рассмотрены возможные способы получения размеченных изображений. В качестве примеров открытых библиотек размеченных изображений показаны ImageNet или Coco, предлагающие размеченные и аннотированные фотоизображения, а также библиотеки наборов трехмерных данных. Исследованы специализированные редакторы разметки изображений для работы с нестандартными и неполно представленными в общедоступных библиотеках объектами, позволяющие размечать данные как вручную, так и в полуавтоматическом режиме. Рассмотрены генераторы синтетических данных и симуляторы, позволяющие имитировать трудновоспроизводимые события, а также комбинированный подход с использованием сетей типа GAN. Выполнен анализ основных сложностей, возникающих у разработчиков при подготовке обучающих данных, в том числе проанализированы недостатки готовых наборов данных, синтетических генераторов и подхода, использующего сети типа GAN.