Аннотация:
Рассматривается задача извлечения информации из текстов с применением методов машинного обучения. Традиционно для построения системы извлечения информации на основе машинного обучения требуется разметка достаточно больших корпусов текстов. Другой проблемой, возникающей при создании такого рода систем, является необходимость построения специального признакового пространства. Для решения первой проблемы предложены методы извлечения информации на основе активного машинного обучения. Для решения второй проблемы предложены методы генерации признакового пространства на основе результатов полного лингвистического анализа. Проведены экспериментальные исследования предложенных методов. Показано, что использование активного машинного обучения существенно сокращает трудоемкость создания системы извлечения информации, сохраняя при этом качество решения задачи.
Ключевые слова:извлечение информации из текстов, полный лингвистический анализ, активное машинное обучение, построение признакового пространства, обработка научных текстов.