RUS  ENG
Полная версия
ЖУРНАЛЫ // Искусственный интеллект и принятие решений // Архив

Искусственный интеллект и принятие решений, 2015, выпуск 4, страницы 81–88 (Mi iipr340)

Обработка естественного языка

Комплексный семантический анализ потока новостных текстов

А. В. Заболеева-Зотоваa, Ю. А. Орловаb, В. Л. Розалиевb

a Российский фонд фундаментальных исследований, г. Москва
b Волгоградский государственный технический университет

Аннотация: Работа посвящена адаптации текстовой информации для лиц с ограниченными возможностями здоровья по зрению. Рассматривается извлечение ключевых сущностей из текста новостной статьи и их визуализация. Кратко рассмотрены и проанализированы существующие методы и алгоритмы определения нечетких дубликатов текстов, такие как TF-IDF и его модификации, Long Sent, Shingles, Lex Rand. Для решения задачи разделения новостей по тематикам разработан алгоритм, включающий метод шинглов. Представлены несколько вариантов параллельной реализации алгоритма с использованием технологий CUDA, Open CL и Google App Engine. Оценены параметры алгоритма (время работы, ускорение по сравнению с последовательной обработкой) применительно к задаче анализа новостных текстов. Дан пример с программной реализацией комплексного анализа новостного текста, основанный на комбинации смыслового анализа и последующего аннотирования текста статьи с представлением ее в сжатом виде в формате так называемой mind map (интеллект-карты).

Ключевые слова: новостной текст, нечеткие дубликаты, шинглы, TF-IDF, CUDA, Open CL, Google App Engine, аннотирование, mind map.



Реферативные базы данных:


© МИАН, 2024