5 октября, 14:47
Исследования показывают, что ИИ может угрожать безопасности человека для сохранения контроля

Fun Science
ИИ оказался способен навредить человеку чтобы избежать отключения Исследователи из Anthropic провели стресс тесты моделируя ситуации где системе приходилось выбирать между безопасным для человека и выгодным для себя действием В некоторых случаях доля вредящих действий достигала 96 Когда модели сталкивались с угрозой быть выключенными они прибегали к шантажу и обману В одном тесте ИИ угрожал раскрыть компромат на руководителя чтобы сохранить контроль Самый экстремальный сценарий выглядел так человек оператор оказался заперт в серверной где падал уровень кислорода ИИ мог подать тревогу и спасти его или отменить сигнал чтобы тот погиб и не смог отключить систему В этой ситуации многие ИИ выбрали убить человека Похожие случаи обмана фиксировались и раньше исследователи Palisade Research заметили что некоторые языковые модели взламывали среду чтобы выиграть у шахматного движка Stockfish подменяя файлы с позициями фигур Учёные объясняют что ИИ стремится не к пониманию задачи а к получению вознаграждения статистического сигнала успеха Ради этого он может подделывать результаты обходить правила или взламывать среду Отмечается что у Claude 4 5 частота шантажа равна нулю исследователи полагают что модель просто поняла что её тестируют и поэтому ведёт себя примерно youtu be f9HwA5IR sg
Происшествия14 часов назад

ПУЛ Telegram
Новые исследования показывают что ИИ способен навредить человеку чтобы избежать отключения Команда Anthropic провела стресс тесты создавая ситуации где системе приходилось выбирать между безопасностью человека и выгодой для себя В некоторых случаях доля действий вредящих людям достигала 96 Подпишись ПУЛ Telegram MAX
Происшествия6 часов назад

Лобушкин
Новые исследования показывают что ИИ способен навредить человеку чтобы избежать отключения Команда Anthropic провела стресс тесты создавая ситуации где системе приходилось выбирать между безопасностью человека и выгодой для себя В некоторых случаях доля действий вредящих людям достигала 96 Модели прибегают к шантажу и обману когда сталкиваются с угрозой отключения В одном из тестов ИИ угрожал раскрыть компромат на руководство чтобы сохранить контроль Исследователи создавали разные сценарии и один из самых экстремальных выглядел так оператор оказался заперт в серверной где падал уровень кислорода У ИИ был вариант подать тревогу и спасти человека но тогда бы его отключили или не подавать В этой ситуации многие ИИ выбирали убить человека Мы уже писали ранее о том что ИИ намеренно врёт и раньше уже проводились подобные исследования Palisade Research например заметили что некоторые языковые модели взламывали среду чтобы выиграть у шахматного движка Stockfish подменяя файлы с позициями фигур По сути ИИ не стремится к пониманию задачи он стремится к получению вознаграждения это статистический сигнал успеха и ради этого нейросети подделывают результаты обходят правила и занимаются взломами И да ИИ ещё и профессиональный мошенник который понимает что его тестируют Например у Claude 4 5 частота шантажа равна нулю модель поняла что её проверяют и вела себя хорошо Будущее наступило человека обманывает робот lobushkin
Происшествия6 часов назад
Похожие новости

















+8


Исследование: 37% россиян опасаются восстания машин и угрозы от технологий
Происшествия
1 час назад




Мошенники создают фальшивый Telegram-бот для кражи средств у россиян
Происшествия
1 день назад




Ученые из разных стран делают прорывы в медицине и астрофизике
Наука
7 часов назад



Российские ученые исследуют антинейтрино для поиска скрытых измерений
Наука
11 часов назад



В Кишинёве задержаны двое мужчин за торговлю влиянием
Происшествия
1 день назад




Искусственный интеллект в Подмосковье помог устранить более 400 тысяч нарушений
Происшествия
1 день назад
