20 октября, 14:27
Anthropic выявила уязвимость в языковых моделях, позволяющую внедрять backdoor с помощью 250 подставных документов


Kali Linux
Anthropic обнаружила тревожную уязвимость в обучении языковых моделей всего 250 подставных документов достаточно чтобы внедрить скрытую команду backdoor в модель размером от 600 миллионов до 13 миллиардов параметров даже если среди данных есть в 20 раз больше нормальных примеров Главное открытие не процент заражённых документов а их абсолютное количество определяет успех атаки Увеличение объёмов данных и масштаба модели не защищает от целенаправленного отравления Backdoor остаётся незаметным модель работает как обычно пока не встретит секретный триггер после чего начинает выполнять вредоносные инструкции или генерировать бессмыслицу Даже если продолжать обучение на чистых данных эффект стирается очень медленно backdoor может сохраняться длительное время Вывод защита LLM требует контроля происхождения данных проверки целостности корпусов и мер по выявлению скрытых иньекций Подробнее www anthropic com research small samples poison
Происшествия2 дня назад
Похожие новости







+6



+27



+84



+16



+5

Технологические достижения и вызовы: от ИИ до криптовалют на неделе
Технологии
3 часа назад




Исследования OpenAI и DeepMind поднимают вопросы о математических способностях ИИ
Технологии
4 часа назад




Утечка данных россиян: хакеры взломали SMS-сервисы и опубликовали 3 ТБ информации
Происшествия
7 часов назад




Max опроверг утечку данных пользователей на фоне хакерской атаки
Происшествия
5 часов назад




Снижение трафика Википедии из-за влияния искусственного интеллекта
Происшествия
8 часов назад




Microsoft: Мошенничество с использованием ИИ стало в 4-5 раз эффективнее традиционного фишинга
Технологии
7 часов назад


