Аннотация:
Описывается подход к проведению тематической классификации отрывков биографического текста, учитывающий ближайший контекст классифицируемых фрагментов, с помощью нейронной сети с несколькими входами. Выбор архитектуры модели обоснован предположением о том, что, поскольку тексты, написанные на естественном языке, отличаются логичностью и связностью, контекст отрывка может быть использован в качестве дополнительных входных данных. Модель обучена и протестирована на корпусе биографических текстов, составленном автором работы. Результаты, полученные с использованием предложенного подхода, превзошли результаты моделей, не учитывающих контекст отрывка.
Ключевые слова:классификация предложений, интеллектуальный анализ данных, рекуррентные нейронные сети, обработка естественного языка, биографический текст, контекст, корпус текстов, биографическое исследование, Word2Vec, BERT.
Статья представлена к публикации членом редколлегии:О. П. Кузнецов
Поступила в редакцию: 08.10.2019 После доработки: 30.05.2020 Принята к публикации: 09.07.2020