Аннотация:
Предлагается новый метод токенизации текста, базирующийся на применении обобщенных функциональных шаблонов. В основу метода положена классификация символов Юникода, учитывающая их роль в формировании элементарных элементов текста (сегментов), и классификация сформированных сегментов по типу их графематических классов. Особенность метода заключается в использовании при формировании шаблона интервалов последовательности символов Юникода. Основное достоинство метода — возможность токенизации сложных информационных объектов (номера, географические координаты, наименования артикулов инженерных изделий и т. п.), возможность получения детальной классификации токенов на стадии их формирования, возможность включения и выключения токенизации определенного вида токенов, а также добавления новых шаблонов по образцу текста для дообучения системы.