Monolingual and cross-lingual knowledge transfer for topic classification
[Моноязыковой и межязыковой перенос знаний для задачи тематической классификации]
D. Karpova,
M. Burtsevb a Moscow Institute of Physics and Technology, Dolgoprudny, Russia
b London Institute for Mathematical Sciences, London, United Kingdom
Аннотация:
В этой работе мы исследуем перенос знаний из набора данных
RuQTopics. Этот русскоязычный тематический набор данных сочетает в себе большое количество точек данных (361560 текстов с одной меткой, 170930 – с несколькими метками) с обширным охватом классов (76 классов). Мы подготовили этот набор данных на основе необработанных данных {Yandex Que}. Оценивая модели, обученные на
RuQTopics, на шести соответствующих классах из русскоязычного подмножества набора данных
MASSIVE, мы показываем, что набор данных
RuQTopics подходит для реальных диалоговых задач, поскольку модели, предназначенные только для русского языка, после обучения на этом наборе данных показывают точность около 85% на этом подмножестве. Мы также обнаружили, что для многоязычного BERT, обученного на
RuQTopics и оцененного на тех же шести классах
MASSIVE (для всех языков датасета
MASSIVE), языковая точность тесно коррелирует (корреляция Спирмена 0.773 с p-значением 2.997e-11) с приблизительным размером данных для предобучения BERT на соответствующем языке. В то же время корреляция точности с языковой дистанцией от русского языка не является статистически значимой. Библ. – 33 назв.
Ключевые слова:
датасет, тематическая классификация, перенос знаний, межязыковой перенос знаний.
УДК:
81.322.2
Поступило: 06.09.2023
Язык публикации: английский