I. Surov, “Opening the black box: Finding Osgood's semantic factors in word2vec space”, Информатика и автоматизация, 2022, выпуск 21, том 5,страницы 916

Эта публикация цитируется в 1 статье

Искусственный интеллект, инженерия данных и знаний

Opening the black box: Finding Osgood's semantic factors in word2vec space

[Открытие чёрного ящика: Извлечение семантических факторов Осгуда из языковой модели word2vec]

I. Surov

ITMO University

Аннотация: Современные модели искусственного интеллекта развиваются в парадигме чёрного ящика, когда значима только информация на входе и выходе системы, тогда как внутренние представления интерпретации не имеют. Такие модели не обладают качествами объяснимости и прозрачности, необходимыми во многих задачах. Статья направлена на решение данной проблемы путём нахождения семантических факторов Ч. Осгуда в базовой модели машинного обученния word2vec, представляющей слова естественного языка в виде 300-мерных неинтерпретируемых векторов. Искомые факторы определяются на основе восьми семантических прототипов, составленных из отдельных слов. Ось оценки в пространстве word2vec находится как разность между положительным и отрицательным прототипами. Оси силы и активности находятся на основе шести процессно-семантических прототипов (восприятие, анализ, планирование, действие, прогресс, оценка), представляющих фазы обобщённого кругового процесса в данной плоскости. Направления всех трёх осей в пространстве word2vec найдены в простой аналитической форме, не требующей дополнительного обучения. Как и ожидается для независимых семантических факторов, полученные направления близки к попарной ортогональности. Значения семантических факторов для любого объекта word2vec находятся с помощью простой проективной операции на найденные направления. В соответствии с требованиями к объяснимому ИИ, представленный результат открывает возможность для интерпретации содержимого алгоритмов типа “чёрный ящик” в естественных эмоционально-смысловых категориях. В обратную сторону, разработанный подход позволяет использовать модели машинного обучения в качестве источника данных для когнитивно-поведенческого моделирования.

Ключевые слова: аффект, семантика, пространство, Осгуд, смысл, язык, word2vec, чёрный ящик, интерпретация.

УДК: 004.8

Поступила в редакцию: 18.07.2022

Язык публикации: английский

DOI: 10.15622/ia.21.5.3