Anthropic выявила уязвимость в языковых моделях, позволяющую внедрять backdoor с помощью 250 подставных документов

Anthropic обнаружила тревожную уязвимость в обучении языковых моделей всего 250 подставных документов достаточно чтобы внедрить скрытую команду backdoor в модель размером от 600 миллионов до 13 миллиардов параметров даже если среди данных есть в 20 раз больше нормальных примеров Главное открытие не процент заражённых документов а их абсолютное количество определяет успех атаки Увеличение объёмов данных и масштаба модели не защищает от целенаправленного отравления Backdoor остаётся незаметным модель работает как обычно пока не встретит секретный триггер после чего начинает выполнять вредоносные инструкции или генерировать бессмыслицу Даже если продолжать обучение на чистых данных эффект стирается очень медленно backdoor может сохраняться длительное время Вывод защита LLM требует контроля происхождения данных проверки целостности корпусов и мер по выявлению скрытых иньекций Подробнее www anthropic com research small samples poison

Anthropic выявила уязвимость в языковых моделях, позволяющую внедрять backdoor с помощью 250 подставных документов

Технологические достижения и вызовы: от ИИ до криптовалют на неделе

Исследования OpenAI и DeepMind поднимают вопросы о математических способностях ИИ

Утечка данных россиян: хакеры взломали SMS-сервисы и опубликовали 3 ТБ информации

Max опроверг утечку данных пользователей на фоне хакерской атаки

Снижение трафика Википедии из-за влияния искусственного интеллекта

Microsoft: Мошенничество с использованием ИИ стало в 4-5 раз эффективнее традиционного фишинга