Аннотация:
FusionBrain – это исследовательский проект, основными задачами которого являются разработка эффективных мультизадачных и мультимодальных моделей и применение их для решения широкого круга практических задач. Общая цель и идея проекта – научиться создавать модели, которые смогут как можно более эффективно извлекать дополнительные важные знания из большого количества модальностей и задач при обучении, и за счет этого лучше решать разные другие задачи. Исследования проводятся во многих модальностях: тексты, изображения, аудио, видео, языки программирования, графы (например, молекулярные структуры), временные ряды и так далее. Список решаемых задач очень большой: от классических задач CV и NLP до задач, вовлекающих разные модальности: VideoQA, Visual Commonsense Reasoning, IQ tests (эти задачи сложны даже для человека). Изучается также способность моделей решать задачи, сформулированные на естественном или визуальном языках, и даже справляться со скрытыми задачами (для которых в обучающей выборке отсутствовали примеры). Исследования сосредоточены в том числе на сокращении данных, человеческих и вычислительных ресурсов, необходимых для обучения и инференса различных моделей. В рамках данного материала мы поделимся полученными результатами в рамках исследования и разработки некоторых мультимодальных и мультизадачных архитектур.