Аннотация:
В работе рассматривается проблемы создания и использования открытых проблемно-ориентированных пакетов данных для проведения экспериментальных исследований с проверяемыми и воспроизводимыми результатами, на примере опыта создания пакетов семейства MIDV, содержащих изображения и видеопоследовательности идентификационных документов. Проведен анализ опубликованных научных работ в областях компьютерного зрения, обработки изображений и вычислительной лингвистики, использующих эти пакеты данных, описаны основные проблемы, с которыми сталкивались научные группы, и выявлены общие закономерности и принципы, которые могут быть использованы для создания пакетов данных такого класса и для расширения существующих.
Ключевые слова:распознавание текста, анализ документов, пакеты данных, воспроизводимость исследований, OCR, обработка изображений.