Аннотация:
Для решения задачи анализа документов методами машинного обучения необходимо большое количество размеченных данных. Такие данные не всегда доступны, а если и доступны, то охватывают только определенные типы документов.
В этой работе нами представлен метод создания синтетических данных, позволяющий создавать документы любого типа, предварительно определив компоненты документа. Изменяя расположение компонентов документов, текстовое содержание и визуальные элементы с помощью конфигураций, мы создаем разнообразные и реалистичные наборы данных, имитирующие реальные документы. Этот метод решает проблему нехватки размеченных наборов данных и предлагает гибкое решение для улучшения результатов модели машинного обучения.
Ключевые слова:
machine learning, data generation, document understanding