Аннотация:
В работе рассматривается метод анализа данных, которые будут использованы при решении
задач машинного обучения, на предмет нахождения в этих данных шумов и неточностей, искажений, которые препятствуют построению адекватной модели. Данные такого рода называются выбросами. Предлагаемый подход использует методы и алгоритмы, основанные на системах многозначной логики. Многозначную логику можно использовать в случае с многомерными
разнородными признаками, характеризующими объекты исходной предметной области. Для проведения качественного анализа данных в работе предлагается следующий порядок действий:
строится многозначная логическая функция для анализируемых данных, которая находит все
возможные классы на рассматриваемой предметной области; далее проводится анализ объектов, которые не попали в построенные классы по ряду признаков; проверяется гипотеза о том,
что данные объекты являются выбросами. В работе проверка гипотезы – это последовательность логических правил для восстановления исходных зависимостей, представленных в обучающей выборке. Предлагаемый подход рассматривался для задач классификации в случае многомерных дискретных признаков, когда каждый признак может принимать k различных значений и являться равнозначным по своей важности для идентификации класса.
Ключевые слова:объект, класс, база знаний, выбросы, информативный вес.