RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и автоматизация // Архив

Тр. СПИИРАН, 2013, выпуск 30, страницы 189–203 (Mi trspy625)

Алгоритм генерации тезаурусных расширений для корпоративного информационного поиска

Д. О. Донцов

Санкт-Петербургский институт информатики и автоматизации РАН

Аннотация: Целью работы является создание алгоритма генерации тезауруса синонимов для названий продуктов. Такие тезаурусы используются в современных поисковых машинах для расширения пользовательского запроса и улучшения качества поиска. При этом подходе из поискового индекса выбираются документы, включающие в себя не только слова, содержащиеся в запросе, но и близкие по смыслу термины. В ходе работы был реализован полуавтоматический метод обучения распознавателя именованных сущностей. Для валидации извлеченных сущностей был предложен метод полуавтоматической валидации.

Ключевые слова: информационный поиск, расширение пользовательского запроса, тезаурусные расширения, извлечение синонимов, распознавание именованных сущностей, строковая кластеризация.

УДК: 004.622

Поступила в редакцию: 03.04.2013



© МИАН, 2024