Аннотация:
В статье рассматривается графовое моделирование текстовых данных с использованием нейронных сетей. Целью работы является разработка графовой нейронной сети для классификации и кластеризации текстов по смысловому содержанию. Представлены тексты в виде графов, где вершины – концепты, а ребра – связи между ними. Использованы публичные текстовые корпуса на русском и английском языках. Предложен новый подход к анализу текстовых данных на основе их представления в виде ориентированных взвешенных графов и обработки графовыми нейронными сетями. Обработка графов осуществлялась нейросетью с тремя слоями графовых сверток. Полученные результаты показывают точность более 90% при классификации тематических групп и кластеризации текстов, превосходя методы RNN, CNN и doc2vec.
Ключевые слова:
концепт, графовая нейросеть, обработка естественного языка, классификация текстов, представление текстов в виде графов, семантический анализ.