Аннотация:
В работе описан прототип системы вопросно-ответного поиска, работающий поверх автоматически сгенерированной базы знаний. Для генерации базы знаний используются методы открытого извлечения информации из текстов, а также обучения без учителя. Исследованы и применены различные методы глубокой кластеризации. С помощью методов открытого извлечения информации извлекаются триплеты вида (субъект, предикат, объект), которые затем кластеризуются в семантические отношения. Кластеризованные триплеты записываются в графовую базу знаний, которая затем используется в качестве источника информации для генерации ответа системы. Разработанный прототип демонстрирует применимость результатов работы подхода, основанного на методах открытого извлечения информации и машинного обучения без учителя, к решению прикладных задач.
Ключевые слова:вопросно-ответный поиск, извлечение информации, обучение без учителя, открытое извлечение информации.