20 октября, 14:27
Anthropic выявила уязвимость в языковых моделях, позволяющую внедрять backdoor с помощью 250 подставных документов


Kali Linux
Anthropic обнаружила тревожную уязвимость в обучении языковых моделей всего 250 подставных документов достаточно чтобы внедрить скрытую команду backdoor в модель размером от 600 миллионов до 13 миллиардов параметров даже если среди данных есть в 20 раз больше нормальных примеров Главное открытие не процент заражённых документов а их абсолютное количество определяет успех атаки Увеличение объёмов данных и масштаба модели не защищает от целенаправленного отравления Backdoor остаётся незаметным модель работает как обычно пока не встретит секретный триггер после чего начинает выполнять вредоносные инструкции или генерировать бессмыслицу Даже если продолжать обучение на чистых данных эффект стирается очень медленно backdoor может сохраняться длительное время Вывод защита LLM требует контроля происхождения данных проверки целостности корпусов и мер по выявлению скрытых иньекций Подробнее www anthropic com research small samples poison
Происшествия50 дней назад
Похожие новости










+56




+2



+3

Искусственный интеллект влияет на мнение избирателей, используя недостоверные факты
Технологии
8 часов назад


Ошибка ИИ от Google привела к удалению данных пользователя Reddit
Происшествия
1 день назад



Специалисты предупреждают о фишинговых письмах с вредоносным ПО, замаскированным под новогодние премии
Происшествия
1 день назад


+56
Искусственный интеллект проникает в религиозные практики
Наука
1 день назад

Искусственный интеллект Яндекса оптимизирует зимнюю уборку снега в Московской области
Общество
5 часов назад


+2
Берлин вводит закон о расширении полномочий полиции для цифрового надзора
Происшествия
1 день назад


+3