RUS  ENG
Полная версия
ЖУРНАЛЫ // Системы и средства информатики // Архив

Системы и средства информ., 2022, том 32, выпуск 4, страницы 45–58 (Mi ssi855)

Аналитика зашумленных текстов

М. П. Кривенко

Федеральный исследовательский центр «Информатика и управление» Российской академии наук

Аннотация: Работа посвящена обзору методов интерпретации искаженных текстовых данных с целью получения из них значимой информации. Аналитика позволяет вычленить полезные понятия, сделать выводы из собранных данных, сформировать прогнозы. Предполагается, что обрабатываемые тексты могут не отвечать модели выбранного эталонного языка. Подобные отклонения могут быть вызваны ошибками измерений и фиксации, оказаться следствием воздействия случайных или непредусмотренных факторов, возникнуть как следствие неправильного выбора или настройки модели. В статье перечислены виды искажений. Рассмотрены области применения методов интеллектуальной обработки текстов: научные публикации; общение в блогах; электронная почта; социальные медиа; речевые сообщения; веб-аналитика. Указаны ориентированные на обработку зашумленных текстов методы. Сформулированы перспективные направления дальнейших исследований: уточнение понятий «зашумленности» и «искажения» текстов, выработка способов измерения степени аномальности текста, систематизация аналитических задач обработки текстов, формирование критериев эффективности методов интеллектуального анализа текста для облегчения выбора подходящих технологий.

Ключевые слова: интеллектуальная обработка текста, зашумленный текст, искаженный текст, аналитика, обзор.

Поступила в редакцию: 22.06.2022

DOI: 10.14357/08696527220405



© МИАН, 2024