16/06/2025

Специалисты из Центра Практического Искусственного Интеллекта «Сбербанка» и ВШЭ анонсировали систему для идентификации эмоций. Разработка анализирует мимику, голос и речь одновременно, что позволяет ей точнее определять эмоциональный статус человека.

Технология работает на базе временных свёрточных сетей (TCN) и трансформерных мультимодальных архитектур — по заявлению создателей, благодаря ей новый комплекс показал себя на 10% эффективней самых передовых моделей, которые фокусируются только на выражении лица.

«Наша система делает взаимодействие человека и искусственного интеллекта более естественным и осмысленным. Мы научились не просто распознавать базовые эмоции, но и учитывать их динамику в реальных условиях — при разном освещении, фоновом шуме и других помехах. Это особенно важно для тех отраслей бизнеса, где понимание эмоций клиентов помогает повышать качество сервиса. Наша технология уже показывает отличные результаты в тестах, а в перспективе её можно адаптировать для виртуальных ассистентов, систем безопасности и даже телемедицины. Главное преимущество — гибкость. Аудиовизуальная модель работает даже при недостаточных данных, например, когда не видно лицо или плохо слышно голос», — заверил Андрей Савченко, научный директор Центра Практического Искусственного Интеллекта «Сбербанка».

Разработку планируют внедрять в коммерческом секторе, сфере безопасности и социальной работе. Оператор сможет, например, отслеживать настроение звонящих в колл-центр и определять признаки агрессивного или панического поведения.