Ю. В. Никитин, А. А. Хорошилов, А. Е. Макарова, “Токенизация текстов на основе метода функциональных шаблонов”, Системы и средства информ., 2022, том 32, выпуск 4,страницы 59

Токенизация текстов на основе метода функциональных шаблонов

Ю. В. Никитин^a, А. А. Хорошилов^bac, А. Е. Макарова^d

^a Федеральный исследовательский центр «Информатика и управление» Российской академии наук
^b Московский авиационный институт
^c 27 Центральный научно-исследовательский институт Министерства обороны Российской Федерации
^d АО «НПК "ВТ и СС"»

Аннотация: Предлагается новый метод токенизации текста, базирующийся на применении обобщенных функциональных шаблонов. В основу метода положена классификация символов Юникода, учитывающая их роль в формировании элементарных элементов текста (сегментов), и классификация сформированных сегментов по типу их графематических классов. Особенность метода заключается в использовании при формировании шаблона интервалов последовательности символов Юникода. Основное достоинство метода — возможность токенизации сложных информационных объектов (номера, географические координаты, наименования артикулов инженерных изделий и т. п.), возможность получения детальной классификации токенов на стадии их формирования, возможность включения и выключения токенизации определенного вида токенов, а также добавления новых шаблонов по образцу текста для дообучения системы.

Ключевые слова: токенизация, сегментация текста, функциональные шаблоны, графематический анализ, компьютерная лингвистика, автоматическая обработка текстов.

Поступила в редакцию: 15.09.2022

DOI: 10.14357/08696527220406