Британский институт безопасности ИИ объединяется с международными партнёрами для реализации проекта стоимостью 15 млн фунтов стерлингов, направленного на исследование согласованности нейросетей.
В проекте примут участие Канадский институт безопасности ИИ, Канадский институт перспективных исследований (CIFAR), Schmidt Sciences, Amazon Web Services, Anthropic, Halcyon Futures, Фонд безопасного ИИ, Британское агентство исследований и инноваций и Агентство перспективных исследований и изобретений (ARIA). Инициатива станет началом движения в сторону тотальной безошибочности и надёжности нейросетей.
В широком смысле несогласованность означает, что ИИ-системы действуют вопреки целям, политике и требованиям своих разработчиков. Она может быть преднамеренной (например, когда злоумышленник нарушает работу ИИ для проведения атаки) или непреднамеренной — когда это явление возникает из-за отсутствия соответствующих защитных барьеров.
По мнению экспертов Trend Micro, примерами несоответствий могут быть:
Отравление модели. Хакеры внедряют или манипулируют данными обучения LLM, что приводит к искажённым результатам, неверным решениям и иногда к внедрению бэкдоров.
Внедрение подсказки. Киберпреступники создают вредоносную подсказку, которая обходит встроенные защитные барьеры LLM, осуществляя своего рода джейлбрейк системы.
Случайное раскрытие. Плохо спроектированные ИИ-системы могут непреднамеренно получать доступ к конфиденциальной информации и передавать её пользователям.
Неконтролируемое потребление ресурсов. Если оно не ограничено должным образом, компоненты ИИ могут, самовоспроизводясь, работать над подзадачами, а это потенциально влечёт отказ системы.
Государственный секретарь по науке, инновациям и технологиям Великобритании Питер Кайл заявил, что передовые нейросети уже превосходят людей в некоторых областях, что делает упомянутый проект как никогда актуальным: «Согласование с ИИ направлено на то, чтобы системы вели себя так, как мы хотим, чтобы они всегда действовали в наших интересах. Ответственное развитие ИИ требует скоординированного глобального подхода, и этот фонд поможет нам сделать ИИ более надёжным, заслуживающим доверия и способным обеспечивать рост, качественные государственные услуги и высококвалифицированные рабочие места».