Аннотация:
Работа посвящена “открытому извлечению информации” из текстов на естественном языке (open information extraction). Описывается подход к решению задачи извлечения семантических отношений из текстов на основе машинного обучения без учителя. Подход основан на методах глубокой кластеризации (deep clustering), в которых алгоритм кластеризации интегрирован внутрь многослойного нейросетевого автокодировщика. Эта модель применяется для объединения в группы поверхностных связей (триплетов), которые можно
интерпретировать как семантические отношения. Представлен метод для извлечения терминов и поверхностных связей на основе правил и статистических данных.
Ключевые слова:открытое извлечение информации, семантические отношения, машинное обучение без учителя, нейронные сети, автокодировщик.