RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и автоматизация // Архив

Информатика и автоматизация, 2021, выпуск 20, том 3, страницы 623–653 (Mi trspy1155)

Эта публикация цитируется в 2 статьях

Искусственный интеллект, инженерия данных и знаний

Efficient natural language classification algorithm for detecting duplicate unsupervised features

[Эффективный алгоритм классификации естественного языка обнаружения повторяющихся контролируемых признаков]

S. Altafa, S. Iqbalb, M. Soomroc

a Pir Mehr Ali Shah Arid Agriculture University
b Pakistan Space and Upper Atmosphere Research Commission (SUPARCO), Pakistan
c Manukau Institute of Technology

Аннотация: Эта статья фокусируется на том, чтобы уловить смысл значения текстовых функций понимания естественного языка (NLU) для обнаружения дубликатов неконтролируемых признаков. Особенности NLU сравниваются с лексическими подходами для доказательства подходящей методики классификации. Подход трансфертного обучения используется для обучения извлечению признаков в задаче семантического текстового сходства (STS). Все функции оцениваются с помощью двух типов наборов данных, которые принадлежат отчетам об ошибках Bosch и статьям Википедии. Цель данного исследованияструктурировать последние исследовательские усилия путем сравнения концепций NLU для описания семантики текста и применения их к IR. Основным вкладом данной работы является сравнительное исследование измерений семантического сходства. Экспериментальные результаты демонстрируют результаты функции Term Frequency–Inverse Document Frequency (TF-IDF) для обоих наборов данных с разумным объемом словаря. Это указывает на то, что двунаправленная долговременная кратковременная память (BiLSTM) может изучать структуру предложения для улучшения классификации

Ключевые слова: кластеризация, информационный поиск, функция TF-IDF, Par2Vec, тексты на естественном языке, лексические подходы.

УДК: 006.72

Язык публикации: английский

DOI: 10.15622/ia.2021.3.5



© МИАН, 2024