Аннотация:
Эта статья фокусируется на том, чтобы уловить смысл значения текстовых
функций понимания естественного языка (NLU) для обнаружения дубликатов
неконтролируемых признаков. Особенности NLU сравниваются с лексическими подходами
для доказательства подходящей методики классификации. Подход трансфертного обучения
используется для обучения извлечению признаков в задаче семантического текстового
сходства (STS). Все функции оцениваются с помощью двух типов наборов данных, которые
принадлежат отчетам об ошибках Bosch и статьям Википедии. Цель данного исследованияструктурировать последние исследовательские усилия путем сравнения концепций NLU для
описания семантики текста и применения их к IR. Основным вкладом данной работы является
сравнительное исследование измерений семантического сходства. Экспериментальные
результаты демонстрируют результаты функции Term Frequency–Inverse Document Frequency
(TF-IDF) для обоих наборов данных с разумным объемом словаря. Это указывает на то, что
двунаправленная долговременная кратковременная память (BiLSTM) может изучать
структуру предложения для улучшения классификации
Ключевые слова:кластеризация, информационный поиск, функция TF-IDF, Par2Vec, тексты на естественном языке, лексические подходы.