20 октября, 14:27

Anthropic выявила уязвимость в языковых моделях, позволяющую внедрять backdoor с помощью 250 подставных документов

Anthropic обнаружила тревожную уязвимость в обучении языковых моделей всего 250 подставных документов достаточно чтобы внедрить скрытую команду backdoor в модель размером от 600 миллионов до 13 миллиардов параметров даже если среди данных есть в 20 раз больше нормальных примеров Главное открытие не процент заражённых документов а их абсолютное количество определяет успех атаки Увеличение объёмов данных и масштаба модели не защищает от целенаправленного отравления Backdoor остаётся незаметным модель работает как обычно пока не встретит секретный триггер после чего начинает выполнять вредоносные инструкции или генерировать бессмыслицу Даже если продолжать обучение на чистых данных эффект стирается очень медленно backdoor может сохраняться длительное время Вывод защита LLM требует контроля происхождения данных проверки целостности корпусов и мер по выявлению скрытых иньекций Подробнее   www anthropic com research small samples poison
Kali Linux
Kali Linux
Anthropic обнаружила тревожную уязвимость в обучении языковых моделей всего 250 подставных документов достаточно чтобы внедрить скрытую команду backdoor в модель размером от 600 миллионов до 13 миллиардов параметров даже если среди данных есть в 20 раз больше нормальных примеров Главное открытие не процент заражённых документов а их абсолютное количество определяет успех атаки Увеличение объёмов данных и масштаба модели не защищает от целенаправленного отравления Backdoor остаётся незаметным модель работает как обычно пока не встретит секретный триггер после чего начинает выполнять вредоносные инструкции или генерировать бессмыслицу Даже если продолжать обучение на чистых данных эффект стирается очень медленно backdoor может сохраняться длительное время Вывод защита LLM требует контроля происхождения данных проверки целостности корпусов и мер по выявлению скрытых иньекций Подробнее www anthropic com research small samples poison