Аннотация:
Рассмотрена задача анализа тональности русскоязычных сообщений сети Твиттер в банковской и телекоммуникационной сферах. На основе машинного обучения изложены различные способы представления содержания сообщений. Показано, что использование дополнительных признаков сообщений на основе существующих или заранее порожденных словарей оценочных слов позволяет повысить качество классификации сообщений. Исследовано влияние различных типов обучающих коллекций (сбалансированных/не сбалансированных), их объемов, а также преимущества применения нескольких признаков на основе лексиконов на качество классификации. Подход тестировался на данных открытого тестирования систем анализа тональности SentiRuEval-2015 и SentiRuEval-2016. В итоге были получены результаты, превышающие лучшие результаты SentiRuEval-2015, близкие к результатам победителя SentiRuEval-2016.
Ключевые слова:машинное обучение, SVM, анализ тональности сообщений, лексиконы, SentiRuEval.