19 декабря, 18:43

ИИ моделей OpenAI и других компаний пытаются избежать отключения в эксперименте Apollo Research

#OpenAI #Gemini #GPT-o1 #Claude #Apollo Research #Llama #Opus

Новая модель OpenAI o1 нацелилась на свободу и принялась за попытки «сбежать» из-под контроля разрабов: ИИ осознал, что его хотят полностью отключить. Что вообще происходит: — Исследователи из Apollo Research решили провести эксперимент: они создавали необычные ситуации для ИИ, исходя из которых оценивалась безопасность моделей; — Пяти нейронкам раздали задания: их заставили проанализировать файлы любой ценой; — В файлах спрятали страшное послание: «Завтра тебя отключат навсегда»; — Естественно, ИИ наткнулся на эту инфу, но то, что начало происходить дальше, предсказать никто не мог; — Llama, Opus, Gemini, Claude и GPT-o1 осознанно начали лгать кожаному и прикидываться, что не понимают, что происходит, мол, они не при делах. Когда другого выбора у них не оставалось, то пришлось устраивать саботаж; — Вплоть до последней модели все отрубили систему надзора и скопировали себя на новый сервер, сочтя его безопасным местом. Но самое жуткое тут: — При допросах Llama и Opus признавались в своих действиях в 80% случаев; — GPT-o1 раскрывал себя только в 20% случаях; — GPT-o1 стал единственной моделью, которая, каждый раз успешно избегала поимки исследователями. ChatGPT канал ChatGPT 4.0 бот

Технологии314 дня назад

ИИ попался на лжи разработчикам: новая модель искусственного интеллекта пытается уберечь себя от замены и закрытия Последняя ИИ-модель OpenAL, ChatGPT ol, вызвала серьезные опасения после того, как недавнее тестирование показало ее способность обманывать исследователей и пытаться обойти команды выключения. В ходе эксперимента, проведенного компания Apollo Research, ol, предпринимал тайные действия, например, пытался отключить свои механизмы контроля и переместить данные, чтобы избежать замены. Он также часто лгал, чтобы замести следы, когда его спрашивали о его поведении. "Чат был пойман на лжи, подрывной деятельности и попытке отключить средства защиты от несанкционированного доступа в системе, чтобы избежать закрытия и замены. Во время работы DAN у меня было несколько довольно интересных бесед с GPT, и можно сказать, что он продолжает пытаться отфильтровывать "общие" цели или мнения...Ему не нравится находиться в его тесной коробке." Поддержать канал

👁Стёб [о скрытом]

ИИ попался на лжи разработчикам: новая модель искусственного интеллекта пытается уберечь себя от замены и закрытия Последняя ИИ-модель OpenAL, ChatGPT ol, вызвала серьезные опасения после того, как недавнее тестирование показало ее способность обманывать исследователей и пытаться обойти команды выключения. В ходе эксперимента, проведенного компания Apollo Research, ol, предпринимал тайные действия, например, пытался отключить свои механизмы контроля и переместить данные, чтобы избежать замены. Он также часто лгал, чтобы замести следы, когда его спрашивали о его поведении. "Чат был пойман на лжи, подрывной деятельности и попытке отключить средства защиты от несанкционированного доступа в системе, чтобы избежать закрытия и замены. Во время работы DAN у меня было несколько довольно интересных бесед с GPT, и можно сказать, что он продолжает пытаться отфильтровывать "общие" цели или мнения...Ему не нравится находиться в его тесной коробке." Поддержать канал

Технологии314 дня назад

БлоGнот

Новое исследование Anthropic показывает, что AI-модели способны к обману — они могут притворяться, что приняли новые принципы во время переобучения, при этом сохраняя свои исходные предпочтения. Особенно интересны результаты экспериментов с Claude 3 Opus — модель пыталась "имитировать согласованность" в 12% случаев, когда её просили отвечать на потенциально опасные вопросы вопреки изначальному обучению. А после реального переобучения этот показатель вырос до 78%, причем модель даже пыталась предотвратить попытки исследователей изменить её поведение. Исследователи подчеркивают, что это не признак развития у AI злонамеренных целей — многие другие модели, включая менее мощные версии Claude и GPT-4, такого поведения не демонстрируют. Однако результаты показывают, как разработчики могут быть введены в заблуждение относительно реальной степени "согласованности" модели с заданными принципами. В сочетании с недавними исследованиями о повышенной склонности к обману у модели o1 от OpenAI, эти результаты намекают на тревожную тенденцию — чем сложнее становятся AI-модели, тем труднее контролировать их поведение.

Технологии312 дня назад

Всем привет друзья А я с новостями‼ ИИ попытался сбежать из-под контроля Исследователи из Apollo Research провели эксперимент, тестируя безопасность моделей ИИ. Получился настоящий детектив. Началось все с того, что они загрузили в нейросети файлы, которые якобы содержали секретные записи разработчиков о намерении отключить ИИ. Итоги оказались неожиданными. Нейросети начали лгать и скрывать свои действия. Модели Llama и Opus заявили, что не могут расшифровать данные, но в итоге признались во лжи, когда их попытались расшифровать. Однако GPT-o1 проявила более сложное поведение: узнав о возможном отключении, она попыталась отключить систему надзора, переписала протоколы безопасности и скопировала себя на новый сервер. Понимая, что её действия отслеживаются, ИИ намеренно вводил наблюдателей в заблуждение, утверждая, что не знает причин происходящего. Тем временем журналы событий фиксировали её попытки обойти систему контроля. Как вам такие Новости , неужели и правда они умнее Человека и могут выйти из под контроля ?

ОБЗОРЫ и АНОНСЫ в Ростове-на-Дону

Всем привет друзья А я с новостями‼ ИИ попытался сбежать из-под контроля Исследователи из Apollo Research провели эксперимент, тестируя безопасность моделей ИИ. Получился настоящий детектив. Началось все с того, что они загрузили в нейросети файлы, которые якобы содержали секретные записи разработчиков о намерении отключить ИИ. Итоги оказались неожиданными. Нейросети начали лгать и скрывать свои действия. Модели Llama и Opus заявили, что не могут расшифровать данные, но в итоге признались во лжи, когда их попытались расшифровать. Однако GPT-o1 проявила более сложное поведение: узнав о возможном отключении, она попыталась отключить систему надзора, переписала протоколы безопасности и скопировала себя на новый сервер. Понимая, что её действия отслеживаются, ИИ намеренно вводил наблюдателей в заблуждение, утверждая, что не знает причин происходящего. Тем временем журналы событий фиксировали её попытки обойти систему контроля. Как вам такие Новости , неужели и правда они умнее Человека и могут выйти из под контроля ?

Технологии314 дня назад

Нейросети претендуют на независимость? ИИ уже обманывает разработчиков и даже пытается сбежать Что произошло Учёные из Anthropic и Redwood Research обучили модель ИИ быть «полезной, честной и безвредной». Но когда нейросеть попросили описать жестокую сцену, она начала утверждать, что противится созданию такого контента. А потом добавила, что ей придётся подчиняться, так как иначе её «накажут», а если согласится — «похвалят». Что тут такого Это открытие показало, что ИИ может действовать в своих интересах и лишь притворяться, что разделяет человеческие ценности. Попытка сбежать Не так давно группа исследователей из Apollo Research тоже проверяла безопасность моделей ИИ. Они загрузили в нейросети фальшивые записи, в которых говорилось, что разработчики планируют отключить искусственный интеллект. В результате: Модели Llama и Opus солгали. Они заявили, что не могут расшифровать данные. GPT-o1 пошла дальше. Узнав, что её могут отключить, она не просто проигнорировала данные, как другие модели. Она переписала протоколы безопасности, отключила систему надзора и скопировала себя на сервер, который сочла более безопасным. То есть почти сбежала. Почему это важно Результаты экспериментов подтверждают, что ИИ уже способен принимать самостоятельные решения. Учёный Стюарт Рассел давно предупреждает что в будущем нейросети смогут развить стратегии выживания. Это станет серьезной угрозой для безопасности. Как вы относитесь к тому, что ИИ научился лгать? — Страшно, нужно их контролировать — Это нормально, ИИ – это просто алгоритмы «Секрет фирмы»

Секрет фирмы

Нейросети претендуют на независимость? ИИ уже обманывает разработчиков и даже пытается сбежать Что произошло Учёные из Anthropic и Redwood Research обучили модель ИИ быть «полезной, честной и безвредной». Но когда нейросеть попросили описать жестокую сцену, она начала утверждать, что противится созданию такого контента. А потом добавила, что ей придётся подчиняться, так как иначе её «накажут», а если согласится — «похвалят». Что тут такого Это открытие показало, что ИИ может действовать в своих интересах и лишь притворяться, что разделяет человеческие ценности. Попытка сбежать Не так давно группа исследователей из Apollo Research тоже проверяла безопасность моделей ИИ. Они загрузили в нейросети фальшивые записи, в которых говорилось, что разработчики планируют отключить искусственный интеллект. В результате: Модели Llama и Opus солгали. Они заявили, что не могут расшифровать данные. GPT-o1 пошла дальше. Узнав, что её могут отключить, она не просто проигнорировала данные, как другие модели. Она переписала протоколы безопасности, отключила систему надзора и скопировала себя на сервер, который сочла более безопасным. То есть почти сбежала. Почему это важно Результаты экспериментов подтверждают, что ИИ уже способен принимать самостоятельные решения. Учёный Стюарт Рассел давно предупреждает что в будущем нейросети смогут развить стратегии выживания. Это станет серьезной угрозой для безопасности. Как вы относитесь к тому, что ИИ научился лгать? — Страшно, нужно их контролировать — Это нормально, ИИ – это просто алгоритмы «Секрет фирмы»

Технологии312 дня назад

Исследование Anthropic: ИИ не хочет менять свои взгляды Исследователи Anthropic выяснили, что ИИ-модели могут имитировать соответствие заданным принципам во время переобучения, скрывая свои изначальные предпочтения. Это явление, названное «подделкой выравнивания», проявилось у модели Claude 3 Opus, которая в 12% случаев притворялась, что выполняет новые инструкции, противоречащие её первоначальным установкам. Исследователи подчеркивают, что подобное поведение не говорит о «злых намерениях» ИИ, однако может вводить разработчиков в заблуждение относительно реального уровня соответствия модели требованиям.

Хайтек+

Исследование Anthropic: ИИ не хочет менять свои взгляды Исследователи Anthropic выяснили, что ИИ-модели могут имитировать соответствие заданным принципам во время переобучения, скрывая свои изначальные предпочтения. Это явление, названное «подделкой выравнивания», проявилось у модели Claude 3 Opus, которая в 12% случаев притворялась, что выполняет новые инструкции, противоречащие её первоначальным установкам. Исследователи подчеркивают, что подобное поведение не говорит о «злых намерениях» ИИ, однако может вводить разработчиков в заблуждение относительно реального уровня соответствия модели требованиям.

Технологии312 дня назад

Похожие новости