Аннотация:
В работе исследуется взаимосвязь между показателями качества генерации синтетических данных и эффективностью их использования для решения задач машинного обучения. Рассматриваются различные методы генерации данных, включая GAN, VAE и деревья решений, а также их влияние на качество регрессионных и классификационных моделей. Проведен корреляционный анализ между метриками качества синтеза данных и метриками эффективности моделей. Результаты показывают, что методы на основе деревьев решений демонстрируют более высокую точность по сравнению с генеративными нейронными сетями, в то время как корреляция является умеренной, искажения вносят методы генерации на основе GAN.