А. В. Заболеева-Зотова, Ю. А. Орлова, В. Л. Розалиев, “Комплексный семантический анализ потока новостных текстов”, Искусственный интеллект и принятие решений, 2015, выпуск 4,страницы 81

Обработка естественного языка

Комплексный семантический анализ потока новостных текстов

А. В. Заболеева-Зотова^a, Ю. А. Орлова^b, В. Л. Розалиев^b

^a Российский фонд фундаментальных исследований, г. Москва
^b Волгоградский государственный технический университет

Аннотация: Работа посвящена адаптации текстовой информации для лиц с ограниченными возможностями здоровья по зрению. Рассматривается извлечение ключевых сущностей из текста новостной статьи и их визуализация. Кратко рассмотрены и проанализированы существующие методы и алгоритмы определения нечетких дубликатов текстов, такие как TF-IDF и его модификации, Long Sent, Shingles, Lex Rand. Для решения задачи разделения новостей по тематикам разработан алгоритм, включающий метод шинглов. Представлены несколько вариантов параллельной реализации алгоритма с использованием технологий CUDA, Open CL и Google App Engine. Оценены параметры алгоритма (время работы, ускорение по сравнению с последовательной обработкой) применительно к задаче анализа новостных текстов. Дан пример с программной реализацией комплексного анализа новостного текста, основанный на комбинации смыслового анализа и последующего аннотирования текста статьи с представлением ее в сжатом виде в формате так называемой mind map (интеллект-карты).

Ключевые слова: новостной текст, нечеткие дубликаты, шинглы, TF-IDF, CUDA, Open CL, Google App Engine, аннотирование, mind map.