RUS  ENG
Полная версия
ЖУРНАЛЫ // Математическая биология и биоинформатика // Архив

Матем. биология и биоинформ., 2022, том 17, выпуск 2, страницы 423–440 (Mi mbb497)

Информационные и вычислительные технологии в биологии и медицине

Извлечение фактографической информации о пандемии из открытых источников сети Интернет

Е. Ю. Акулининаa, А. Л. Кармановa, Н. А. Теплыхa, В. В. Власовa, В. И. Балутаb, С. С. Варыхановb, А. А. Карандеевb, В. П. Осиповb, Ю. Г. Рыковb, Б. Н. Четверушкинb

a ФГУП "РФЯЦ ВНИИТФ им. академ. Е.И. Забабахина", Снежинск, Россия
b Институт прикладной математики им. М.В. Келдыша РАН, Москва, Россия

Аннотация: Создание базирующихся на мультиагентных подходах моделей распространения инфекционных заболеваний основывается на использовании большого объема разнородных исходных данных, как правило, отсутствующих в непосредственном доступе, в связи с чем одной из ключевых проблем конструирования таких моделей является разработка инструментов получения данных из различных источников. В настоящей статье представлены подходы, позволяющие извлекать из текстовых сообщений, опубликованных в сети Интернет, значения параметров функционирования моделируемого общества и статистические данные о процессе развития пандемии. Предложены метод и программная реализация для целенаправленного поиска открытых источников информации в сети интернет и обработки неструктурированных данных. Собранные таким образом данные используются для настройки математической модели при исследовании различных сценариев развития эпидемии в конкретных регионах. Акцент в предлагаемом подходе обработки данных сделан на двух основных технологиях: применение регулярных выражений и анализ с использованием методов машинного обучения. Использование метода регулярных выражений позволяет обеспечить высокую скорость обработки текстов, но его применимость ограничивается сильной зависимостью от контекста. В свою очередь, машинное обучение позволяет адаптироваться под информационный контекст сообщения, однако при этом наблюдаются относительно большие затраты времени на анализ. Для повышения точности анализа и нивелирования недостатков каждого из этих подходов предлагаются способы совмещения названных технологий. В статье излагаются полученные результаты оптимизации алгоритмов получения необходимых данных. Реализация предлагаемых решений выполнена на языках Python и С++ с использованием библиотек по обработке русскоязычной текстовой информации. Также представлено решение на основе современной программной платформы для автоматизации процесса мониторинга и обработки выбранных информационных каналов.

Ключевые слова: анализ текстовых данных, регулярные выражения, синтаксические деревья, платформа сбора данных.

Материал поступил в редакцию 24.11.2022, 29.11.2022, опубликован 04.12.2022

DOI: 10.17537/2022.17.423



Реферативные базы данных:


© МИАН, 2024