RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2022, том 34, выпуск 1, страницы 141–150 (Mi tisp670)

Алгоритмы обработки естественного языка для понимания семантики текста

Д. О. Жаксыбаев, Г. Н. Мизамова

Западно-Казахстанский аграрно-технический университет им. Жангир хана

Аннотация: Векторное представление слов используется для различных задач автоматической обработки естественного языка. Множество методов существует для векторного представления слов, включая методы нейронных сетей Word2Vec и GloVe, а также классический метод латентно-семантического анализа LSA. Данная работа посвящена исследованию эффективности использования сетевых векторных методов LSTM для неклассической классификации в соответствии с тональностью текстов на русском и английском языках. Описаны характеристики векторных методов классификации слов (LSA, Word2Vec, GloVe), описана архитектура нейросетевого классификатора слов на основе LSTM и оценены методы векторной классификации слов, представлены результаты экспериментов, вычислительных средств и их обсуждение. Лучшей моделью векторного представления слов является модель Word2Vec, учитывая скорость обучения, меньший размер корпуса слов для обучения, большую точность и скорость обучения нейросетевого классификатора.

Ключевые слова: обработка теста, ключевые слова, процедура отбора, вектор слов.

DOI: 10.15514/ISPRAS-2022-34(1)-10



© МИАН, 2024