|
СЕМИНАРЫ |
|
Минимаксный подход к моделированию данных разной точности Е. В. Бурнаевabc a Московский физико-технический институт (государственный университет), г. Долгопрудный Московской обл. b Институт проблем передачи информации им. А.А. Харкевича Российской академии наук, г. Москва c Национальный исследовательский университет "Высшая школа экономики", г. Москва |
|||
Аннотация: Зачастую в задачах индустриальной инженерии имеется несколько источников данных разной точности. Например, эксперименты в аэродинамической трубе обеспечивают высокую точность моделирования (источник данных высокой точности), но при этом они затратны как по стоимости, так и по времени. В свою очередь, эксперименты на основе вычислительных физических моделей имеют более высокую погрешность (источник данных низкой точности), но при этом эти эксперименты вообще говоря менее затратны как по стоимости, так и по времени. Задача построения регрессии по данным разной точности состоит в том, чтобы научиться прогнозировать значения источника данных высокой точности для новых условий эксперимента. При этом есть ограничение сверху на бюджет вычислений, то есть из-за высокой стоимости высокоточных данных мы можем пополнить обучающую выборку только небольшим количеством высокоточных данных. Однако, в некоторых приложениях оказывается, что значительно более точную регрессионную модель удается построить, если использовать также и низкоточные данные. На этом пути возникает задача планирования эксперимента, в частности, необходимо ответить на вопрос о том, как выбирать соотношение между размерами выборок низкоточных и высокоточных данных. В докладе будет рассмотрена гауссовская модель регрессии на основе данных разной точности. Для этой модели удалось подсчитать минимаксную ошибку интерполяции в случае, если исходные гаусовские процессы достаточно гладкие. На основе этих результатов, - была получена оценка того, какое улучшение в точности интерполяции потенциально можно получить в зависимости от корреляции между источниками данных разной точности, если использовать при построении регрессии и низкоточные данные; - был построен алгоритм планирования эксперимента, который позволяет оптимально выбирать соотношение между размерами выборок низкоточных и высокоточных данных для заданного бюджета вычислений. Результаты применения алгоритма к искусственным данным и данным из реальных задач показывают его высокую эффективность. Доклад делается по мотивам статей: - https://arxiv.org/abs/1610.06731 - https://www.researchgate.net/publication/287375928_Surrogate_modeling_of_multifidelity_data_for_large_samples - https://www.researchgate.net/publication/304158862_Regression_on_the_Basis_of_Nonstationary_Gaussian_Processes_with_Bayesian_Regularization - https://arxiv.org/abs/1609.01088 |