RUS  ENG
Полная версия
ЖУРНАЛЫ // Системы и средства информатики // Архив

Системы и средства информ., 2022, том 32, выпуск 4, страницы 59–68 (Mi ssi856)

Токенизация текстов на основе метода функциональных шаблонов

Ю. В. Никитинa, А. А. Хорошиловbac, А. Е. Макароваd

a Федеральный исследовательский центр «Информатика и управление» Российской академии наук
b Московский авиационный институт
c 27 Центральный научно-исследовательский институт Министерства обороны Российской Федерации
d АО «НПК "ВТ и СС"»

Аннотация: Предлагается новый метод токенизации текста, базирующийся на применении обобщенных функциональных шаблонов. В основу метода положена классификация символов Юникода, учитывающая их роль в формировании элементарных элементов текста (сегментов), и классификация сформированных сегментов по типу их графематических классов. Особенность метода заключается в использовании при формировании шаблона интервалов последовательности символов Юникода. Основное достоинство метода — возможность токенизации сложных информационных объектов (номера, географические координаты, наименования артикулов инженерных изделий и т. п.), возможность получения детальной классификации токенов на стадии их формирования, возможность включения и выключения токенизации определенного вида токенов, а также добавления новых шаблонов по образцу текста для дообучения системы.

Ключевые слова: токенизация, сегментация текста, функциональные шаблоны, графематический анализ, компьютерная лингвистика, автоматическая обработка текстов.

Поступила в редакцию: 15.09.2022

DOI: 10.14357/08696527220406



© МИАН, 2024