Аннотация:
Предлагаются: модифицированный алгоритм выделения из текста доминантных терминов; семантическая модель корпуса документов, позволяющая представить его в форме графа для последующего анализа; алгоритм синтеза корпуса документов с заданными признаками по результатам информационного поиска в глобальных сетях. Рассматривается подход к обработке авторефератов кандидатских и докторских диссертаций. Описан эксперимент по выявлению семантически похожих групп в корпусе документов. Библиогр. 8. Ил. 4.
Ключевые слова:интеллектуальный анализ текстовых данных, семантическая модель, онтология, латентный семантический анализ, кластерный анализ, информационно-поисковая система.