Аннотация:
В статье исследуется задача автоматического извлечения информации о существовании различных проблем c продуктами из отзывов пользователей. В последние десятилетия на рынке потребительских товаров появилась резкая динамика увеличения количества технически сложных товаров. У покупателей возникают претензии по поводу удобства использования продукта наряду с ненадлежащим техническим качеством. Пользователи публикуют свои мнения о сложностях в использовании продуктов, что может оказывать влияние на процесс принятия решения о покупке продуктов потенциальными потребителями. Для достижения целей исследования предложены две тематические модели на основе латентного размещения Дирихле, позволяющие совместно учитывать несколько типов информации для идентификации проблемных высказываний. Предложенные алгоритмы моделируют распределение слов в документе, учитывая взаимосвязь между скрытыми тематической, тональной и проблемной переменными. Результаты экспериментального исследования анализируются в статье в сравнении с результатами популярных вероятностных моделей для задач анализа мнений, в качестве критериев оценки используются стандартные метрики качества систем анализа текстов и перплексия контрольных данных (perplexity). Для качественной оценки тематических распределений моделей был проведен анализ тем, подтверждающий целесообразность определения тональности для критических высказываний пользователей. Эксперименты показали, что наилучшие результаты классификации фраз о проблемах в использовании продуктов показывают предложенные модели, использующие совместную информацию из отзывов пользователей на русском и английском языках.