Аннотация:
Работа посвящена адаптации текстовой информации для лиц с ограниченными возможностями здоровья по зрению. Рассматривается извлечение ключевых сущностей из текста новостной статьи и их визуализация. Кратко рассмотрены и проанализированы существующие методы и алгоритмы определения нечетких дубликатов текстов, такие как TF-IDF и его модификации, Long Sent, Shingles, Lex Rand. Для решения задачи разделения новостей по тематикам разработан алгоритм, включающий метод шинглов. Представлены несколько вариантов параллельной реализации алгоритма с использованием технологий CUDA, Open CL и Google App Engine. Оценены параметры алгоритма (время работы, ускорение по сравнению с последовательной обработкой) применительно к задаче анализа новостных текстов. Дан пример с программной реализацией комплексного анализа новостного текста, основанный на комбинации смыслового анализа и последующего аннотирования текста статьи с представлением ее в сжатом виде в формате так называемой mind map (интеллект-карты).
Ключевые слова:новостной текст, нечеткие дубликаты, шинглы, TF-IDF, CUDA, Open CL, Google App Engine, аннотирование, mind map.