Аннотация:
Растущее признание значимости экологических, социальных и управленческих (ESG) факторов при принятии финансовых решений стимулирует потребность в эффективных и всеобъемлющих инструментах оценки ESG-рисков. В этом исследовании мы представляем модель обработки естественного языка (NLP) с открытыми весами, “ESGify”+, основанную на архитектуре MPNet и предназначенную для классификации текстов об ESG-рисках. Мы также представляем иерархическую методологию классификации ESG-рисков, использующую опыт специалистов по ESG и лучшие мировые практики. ESGify разработана для автоматизации классификации ESG-рисков в соответствии с установленной методологией. Модель обучена на основании набора данных с несколькими метками, составленного вручную и состоящего из 2000 новостных статей, и адаптирована к ESG-тематике с использованием текстов отчетов об устойчивом развитии. Мы сравниваем методы аугментации, основанные на обратном переводе и больших языковых моделях (LLMs) для улучшения качества модели и достижения метрики качества, взвешенной F1 метрики, на уровне 0.5 на наборе данных с 47 классами. Для простых подсказок этот результат превосходит ChatGPT 3.5. Веса модели и документация размещены на Github https://github.com/sb-ai-lab/ESGify под лицензией Apache 2.0.