08/08/2025

Британский институт безопасности ИИ объединяется с международными партнёрами для реализации проекта стоимостью 15 млн фунтов стерлингов, направленного на исследование согласованности нейросетей.

В проекте примут участие Канадский институт безопасности ИИ, Канадский институт перспективных исследований (CIFAR), Schmidt Sciences, Amazon Web Services, Anthropic, Halcyon Futures, Фонд безопасного ИИ, Британское агентство исследований и инноваций и Агентство перспективных исследований и изобретений (ARIA). Инициатива станет началом движения в сторону тотальной безошибочности и надёжности нейросетей.

В широком смысле несогласованность означает, что ИИ-системы действуют вопреки целям, политике и требованиям своих разработчиков. Она может быть преднамеренной (например, когда злоумышленник нарушает работу ИИ для проведения атаки) или непреднамеренной — когда это явление возникает из-за отсутствия соответствующих защитных барьеров.

По мнению экспертов Trend Micro, примерами несоответствий могут быть:

  1. Отравление модели. Хакеры внедряют или манипулируют данными обучения LLM, что приводит к искажённым результатам, неверным решениям и иногда к внедрению бэкдоров.
  2. Внедрение подсказки. Киберпреступники создают вредоносную подсказку, которая обходит встроенные защитные барьеры LLM, осуществляя своего рода джейлбрейк системы.
  3. Случайное раскрытие. Плохо спроектированные ИИ-системы могут непреднамеренно получать доступ к конфиденциальной информации и передавать её пользователям.
  4. Неконтролируемое потребление ресурсов. Если оно не ограничено должным образом, компоненты ИИ могут, самовоспроизводясь, работать над подзадачами, а это потенциально влечёт отказ системы.

Государственный секретарь по науке, инновациям и технологиям Великобритании Питер Кайл заявил, что передовые нейросети уже превосходят людей в некоторых областях, что делает упомянутый проект как никогда актуальным: «Согласование с ИИ направлено на то, чтобы системы вели себя так, как мы хотим, чтобы они всегда действовали в наших интересах. Ответственное развитие ИИ требует скоординированного глобального подхода, и этот фонд поможет нам сделать ИИ более надёжным, заслуживающим доверия и способным обеспечивать рост, качественные государственные услуги и высококвалифицированные рабочие места».

 

Усам Оздемиров