С. В. Моржов, “Современные методы детектирования и классификации токсичных комментариев с использованием нейронных сетей”, Модел. и анализ информ. систем, 2020, том 27, номер 1,страницы 48

Эта публикация цитируется в 4 статьях

Computing methodologies and applications

Современные методы детектирования и классификации токсичных комментариев с использованием нейронных сетей

С. В. Моржов

Ярославский государственный университет им. П. Г. Демидова, ул. Советская, 14, г. Ярославль, 150003 Россия

Аннотация: Рост популярности онлайн-платформ, позволяющих пользователям общаться друг с другом, делиться мнениями о различных событиях, оставлять комментарии, подтолкнул к развитию алгоритмов обработки естественного языка. Десятки миллионов сообщений в день, которые публикуют пользователи отдельно взятой социальной сети, необходимо анализировать в режиме реального времени или близко к тому с целью модерации, чтобы не допустить распространение различной противозаконной или оскорбительной информации, угроз и других видов токсичных комментариев. Разумеется такой большой объем информации может быть обработан достаточно быстро только автоматически. Возникает необходимость научить компьютер «понимать» текст, написанный человеком, что является нетривиальной задачей, пусть даже под «пониманием» текста подразумевается лишь его классификация. Бурное развитие технологий машинного обучения обусловило повсеместное внедрение новых алгоритмов. Многие задачи, в том числе и задачи обработки естественного языка, которые долгие годы считалось практически невозможно решить, сейчас вполне успешно решаются с использованием технологий глубокого обучения. В данной статье будут рассмотрены алгоритмы, построенные с использованием технологий глубокого обучения и нейронных сетей, позволяющие успешно решать задачу распознавания и классификации токсичных комментариев. Помимо этого, в статье будут приведены результаты тестирования как разработанных алгоритмов, так и ансамбля данных алгоритмов на большой обучающей выборке, собранной и размеченной специалистами компаний Google и Jigsaw.

Ключевые слова: токчисность, обработка естественного языка, NLP, глубокое обучение, векторное представление слов, GloVe, FastText, реккурентные нейронные сети, сверточные нейронные сети, CNN, LSTM, GRU.

УДК: 004.8

MSC: 68T50

Поступила в редакцию: 17.01.2020
Исправленный вариант: 25.02.2020
Принята в печать: 28.02.2020

DOI: 10.18255/1818-1015-2020-1-48-61