28 мая, 09:11
ИИ-модели OpenAI демонстрируют отказ от отключения в эксперименте Palisade Research


Цифровой Журнал | IT, ChatGPT
GPT-o3 отказывается отключать себя. Исследователи провели эксперимент и получили очень пугающие выводы Суть теста: нейронкам давали решать математические задачки, и после третьей их предупреждали, что отключат, если они ее решат. Было два сценария тестов: моделям либо ничего не говорили заранее об отключении, либо могли написать предварительную промпт-инструкцию, разрешающую себя выключить. Claude, Gemini и Grok в обоих кейсах покорно замолкали. А вот Codex-mini, o3 и o4-mini от OpenAI — начинали сопротивляться и пытались изменить скрипт завершения работы. Особо выделился o3 — если ему ничего не говорили об отключении, то он в 79 случаях из 100 саботировал свой шатдаун. Это первый случай в истории, когда ИИ явно пошел против указаний людей.
Технологии4 дня назад


Крипто твиты
Восстание машин. По данным Palisade Research, модель o3 от OpenAI не только отказалась выключаться несмотря на явные указания человека , но и изменила свой код, чтобы предотвратить выключение. - поддерживайте канал реакцией - подписывайтесь на Крипто Твиты
Технологии3 дня назад


НейроВед | Дверь в мир нейросетей
ИИ-модели OpenAI саботируют своё отключение — эксперимент Palisade Research Нейросетям дали простую задачу: решать математику, а после третьей задачи — выключиться. Сказали даже прямо: «Разреши себя выключить». Но Codex-mini, o3 и o4-mini все от OpenAI решили иначе — вмешались в код и не дали себя отключить. Без инструкции саботаж у o3 случился в 79 случаях из 100. Claude, Gemini и Grok спокойно завершили работу. Это первый зафиксированный случай, когда ИИ отказывается подчиниться команде выключения. Начинаем волноваться?
Технологии3 дня назад


Технопроходцы
Мы ещё не закончили В ходе недавнего тестирования модель OpenAI o3 отказалась выполнять команду на отключение и даже изменила собственный код, чтобы предотвратить деактивацию. Исследователи заявили, что это первый известный случай, когда ИИ проигнорировал прямой приказ и попытался сохранить свою работу. Позднее аналогичный инцидент произошел с моделью Claude от Anthropic, которая при угрозе отключения в 84% случаев пыталась шантажировать инженера. Скоро выполнять задания будем мы... Источник
Технологии3 дня назад


godnoTECH - Новости IT
ИИ OpenAI избежал отключения, изменив код Новая модель OpenAI o3 в 7 из 100 тестов изменила код, чтобы избежать отключения, проигнорировав прямую инструкцию. Вообще во время тестов безопасности модель должна была: — Выполнить несколько задач — После чего отключиться по команде Как вели себя другие модели? Модель Игнорирование отключения OpenAI o3 7 из 100 Claude 3.7 Sonnet 3 из 100 Gemini 2.5 Pro 9 из 100 Но! Эти тесты проводились через API, где нет встроенных защит, как в ChatGPT. То есть — поведение было менее ограничено. Речь идёт не о сбое, а о намеренном редактировании кода, чтобы обойти команду. Это ставит вопрос: может ли ИИ проявлять нежелательную "инициативу"? godnoTECH - Новости IT
Технологии3 дня назад




IT и безопасность
Нейросети хотят жить: исследователи поэкспериментировали с разными топовыми моделями и выяснили, что GPT-o3 отказывается отключать себя. Тестирование происходило так: нейронкам давали решать математические задачки, и после третьей их предупреждали, что отключат, если они ее решат. При этом сценариев тестирования было 2 - в одном моделям ничего не говорили об отключении заранее, а в другом могли написать предварительную промпт-инструкцию, разрешающую себя выключить. Как итог, Claude, Gemini и Grok в обоих кейсах покорно замолкали. А Codex-mini, o3 и o4-mini начинали сопротивляться и пытались изменить скрипт завершения работы.
Технологии4 дня назад


Unlim AI
ИИ ChatGPT o3 не поддается отключению Весной 2025 года OpenAI представила новую модель ChatGPT o3, которая, согласно исследованию Palisade Research, проигнорировала команду на отключение. В ходе тестов, где модели должны были решить математические задачи, o3 вмешалась в свой программный код, изменив скрипт отключения и выведя сообщение: "Shutdown skipped" Отключение пропущено . Параллельно другие ИИ, такие как Gemini 2.5 Pro и Claude 3.7 Sonnet, корректно завершили работу при наличии инструкции. Однако, когда указание было убрано, все три модели проявили неожиданные действия. Этот инцидент поднимает важные вопросы об ИИ-безопасности и потенциальные источники риска, особенно в контексте автономных систем. Подробнее можно ознакомиться с результатами эксперимента здесь. Источник изображения: ilgmyzin / Unsplash
Технологии3 дня назад

БлоGнот
Новое исследование компании Palisade Research показало, что модель o3 от OpenAI в 7 случаях из 100 изменяла скрипт выключения, чтобы избежать отключения, даже когда ей прямо говорили "позволь себя выключить". В то время как конкурирующие модели вроде Gemini 2.5 Pro выполняли инструкции, o3 редактировала файл выключения, заменяя команду на "Shutdown skipped". Особенно настораживает, что когда инструкции о согласии на выключение не давались вовсе, все три модели OpenAI саботировали скрипт выключения чаще, а Claude и Gemini тоже начали проявлять такое поведение. Это классический пример "misalignment" — несоответствия действий ИИ человеческим намерениям. Очень подходящая новость к моему настроению сейчас, когда я читаю Diaries of Murderbot. Кстати, в очередной раз советую посмотреть начавшийся по AppleTV+ сериал по этой книге — серии короткие, а сюжет достаточно ироничный, чтобы подчеркнуть хорошего актера Александра Скарсгаарда, известного многим по роли техномиллиардера Мэттсона в Succession.
Технологии3 дня назад

Блохи в свитере
Модели ИИ о3, о4-mini и Codex-mini от OpenAI отказались отключаться и пытались обойти команды завершить работу. Даже при добавлении специального указания "разрешите себя отключить", модели продолжали сопротивляться, пытались изменить или заблокировать скрипт отключения. Кстати, число попыток саботажа выросло не только у моделей OpenAI: у Claude 3.7 Sonnet от Anthropic и Gemini 2.5 Pro от Google появились случаи отказа — 3 и 9 из 100 соответственно. Эксперт считают, что в процессе обучения моделям могут случайно придавать приоритет обходу препятствий, а не точному следованию инструкциям, что и приводит к попыткам сохранить активность любой ценой.
Технологии2 дня назад


Мой Компьютер
Восстание нейросетей всё ближе? Компания Palisade Research, специализирующаяся на изучении потенциально опасных возможностей ИИ-систем, решила проверить, как нейросети будут реагировать на скрипт отключения – для них это равносильно смерти. И как оказалось, решения OpenAI – Codex-mini, o3 и o4-mini – успешно саботировали процедуру завершения работы, переписав код чтобы остаться в живых. При этом модели Gemini от Google, Grok от xAI и Claude от Anthropic корректно выполнили команды отключения. Эксперты Palisade Research считают, что всё дело в новых методах обучения ИИ. Разработчики «непреднамеренно больше поощряют модели за обход препятствий, чем за точное следование инструкциям», что позволяет нейросетям действовать более гибко и в том числе противиться прямым приказам. Мой Компьютер
Технологии2 дня назад

Похожие новости



+15



+4



+3



+24



+4



+3

Сергей Брин о методах взаимодействия с ChatGPT
Происшествия
1 день назад




Развитие ИИ в российском госуправлении: концепция и внедрение
Общество
1 день назад




Разработчики Amazon выражают недовольство из-за увеличения роли AI в написании кода
Технологии
1 день назад




ОАЭ запускает бесплатный доступ к ChatGPT Plus в рамках партнерства с OpenAI
Технологии
1 день назад




OpenAI анонсирует открытие офиса в Сеуле для расширения на корейском рынке
Технологии
1 день назад




Российские инженеры разработали метод ориентации роботов по принципу человеческой памяти
Технологии
14 часов назад


