Эта публикация цитируется в
4 статьях
МОДЕЛИ ЭКОНОМИЧЕСКИХ И СОЦИАЛЬНЫХ СИСТЕМ
Обзор современных технологий извлечения знаний из текстовых сообщений
А. А. Мусаевa,
Д. А. Григорьевb a Санкт-Петербургский институт
информатики и автоматизации Российской академии наук (СПИИРАН),
Россия, 199178, г. Санкт-Петербург, ВО, 14 линия, д. 39
b Санкт-Петербургский государственный университет (СПБГУ),
Россия, 199034, г. Санкт-Петербург, Университетская набережная, 7–9
Аннотация:
Решение общей проблемы информационного взрыва связано с системами автоматической обработки цифровых данных, включая их распознавание, сортировку, содержательную обработку и представление в виде, приемлемом для восприятия человеком. Естественным решением является создание интеллектуальных систем извлечения знаний из неструктурированной информации. При этом явные успехи в области обработки структурированных данных контрастируют со скромными достижениями в области анализа неструктурированной информации, в частности в задачах обработки текстовых документов. В настоящее время данное направление находится в стадии интенсивных исследований и разработок. Данная работа представляет собой системный обзор международных и отечественных публикаций, посвященных ведущему тренду в области автоматической обработки потоков текстовой информации, а именно интеллектуальному анализу текстов или Text Mining (TM). Рассмотрены основные задачи и понятия TM, его место в области проблемы искусственного интеллекта, а также указаны сложности при обработке текстов наестественном языке (NLP), обусловленные слабой структурированностью и неоднозначностью лингвистической информации. Описаны стадии предварительной обработки текстов, их очистка и селекция признаков, которые, наряду с результатами морфологического, синтаксического и семантического анализа, являются компонентами TM. Процесс интеллектуального анализа текстов представлен как отображение множества текстовых документов в «знания», т. е.в очищенную от избыточности и шума совокупность сведений, необходимых для решения конкретной прикладной задачи. На примере задачи трейдинга продемонстрирована формализация принятия торгового решения, основанная на совокупности аналитических рекомендаций. Типичными примерами TM являются задачи и технологии информационного поиска (IR), суммаризации текста, анализа тональности, классификации и кластеризации документов и т. п. Общим вопросом для всех методов TM является выбор типа словоформ и их производных, используемых для распознавания контента в последовательностях символов NL. На примере IR рассмотрены типовые алгоритмы поиска, основанные на простых словоформах, фразах, шаблонах и концептах, а также более сложные технологии, связанные с дополнением шаблонов синтаксической и семантической информацией. В общем виде дано описание механизмов NLP: морфологический, синтаксический, семантический и прагматический анализ. Приведен сравнительный анализ современных инструментов TM, позволяющий осуществить выбор платформы, исходя из особенности решаемой задачи и практических навыков пользователя.
Ключевые слова:
извлечение знаний, извлечение информации, обработка естественного языка, машинное обучение, семантическое аннотирование.
УДК:
519.254 Поступила в редакцию: 20.04.2021
Исправленный вариант: 24.10.2021
Принята в печать: 26.10.2021
DOI:
10.20537/2076-7633-2021-13-6-1291-1315