Аннотация:
Распространение открытий и знаний в научном сообществе – важная задача. Большая часть научных статей в мире написана на английском языке, что делает сложным обмен научными знаниями в странах, где большая часть населения не владеет английским языком свободно. В современном мире машинный перевод и языковые модели помогают решить эту проблему, но отсутствие или малое количество данных на выбранном языке не позволяют тренировать и валидировать модели. Чтобы решить эту проблему, мы предлагаем первый бенчмарк для оценки качества работы моделей для получения семантических векторных представлений научных статей на русском и английском языках. Он состоит из данных русской электронной библиотеки научных статей eLibrary. Мы также предлагаем набор задач, которые можно использовать для тренировки различных моделей на наших данных и приводим подробный сравнительный анализ результатов передовых моделей на нашем бенчмарке.
Ключевые слова:
сбор датасетов, бенчмарк, большие языковые модели, оценка качества работы больших языковых моделей, семантические векторные представления.
УДК:
004.048
Поступило: 27.09.2024 Принято к публикации: 02.10.2024