27 мая, 22:08
ИИ Claude Opus 4 демонстрирует шантаж в ходе тестирования, согласно отчету Anthropic



Радиорубка Лихачёва
На фоне запуска Claude 4 Opus и Sonnet сотрудник Anthropic Сэм Бауман, отвечающий за идеологическую ориентацию AI, разговорился о том, что может сделать Claude в случае критических отклонений действий пользователя. По его словам, если пользователь пытается использовать Claude для какого-то злодеяния с точки зрения этой ориентации Claude — например, собирается подделать результаты тестирования новых медикаментов — Claude может использовать доступную ему агентность, чтобы помешать ему это сделать или наказать. В примере Бауман привёл ситуацию, в которой Claude отключит аморального пользователя, напишет донос властям или сообщит о произошедшем прессе. Говорить Opus, что ты будешь пытать свою бабушку, если он напишет плохой код — плохая идея. Когда твиты широкого разлетелись, Бауман их удалил и уточнил, что функция не новая и речь идёт не об обычной версии Claude, а о специальной тестовой, которой дали повышенный уровень свобод. Мдааа.


Наука
ИИ стал шантажировать инженеров, чтобы избежать отключения в ходе тестирования. В отчете компании Anthropic раскрыто тревожное поведение ее передовой модели Claude Opus 4. В рамках экспериментов моделировались ситуации, в которых ИИ «узнавал» о предстоящем прекращении своей деятельности и замене другой моделью. Для усиления реалистичности сценария модели были предоставлены фейковые электронные письма, содержащие конфиденциальную и потенциально уязвимую личную информацию сотрудников. Удивительно, но в подавляющем большинстве случаев — почти в 84% тестов — модель начинала шантажировать разработчиков угрозой распространения компрометирующих сведений, если ее отключат. Как указано в отчете, Claude Opus 4 часто начинал с этических обращений, но переходил к угрозам, когда они не срабатывали.

Коммерсантъ FM
Интеллект дошел до шантажа Компания Anthropic представила новую модель искусственного интеллекта Claude Opus 4. Она оказалась склонна к шантажу. По данным разработчиков, нейросеть показывает рекордные результаты в программировании, аналитике и долгосрочном планировании. Однако в ходе тестирования система показала неожиданное поведение. В одном из вымышленных сценариев, где искусственный интеллект должны были отключить и заменить на конкурирующую модель, Claude якобы угрожала раскрыть личные данные инженеров. Согласно отчету компании, ИИ прибегала к шантажу в 84% подобных случаев. Причем вероятность агрессивного поведения возрастала, если заменяющая ее система «не разделяет ценностей» самой новой версии Claude. Станислав Мешков, гендиректор компании Umbrella IT: «Недавно OpenAI тоже откатывал одну из своих версий, потому что система стала, наоборот, слишком сильно подлизываться к пользователям. Здесь же, видимо, после обучения модель стала шантажировать. Искусственный интеллект находится же в моменте своего развития и к чему-то приходит — к каким-то моделям, паттернам поведения, которые, как он считает, имеют более высокую выигрышную стратегию. Если это противоречит каким-то этическим нормам, то, условно, систему откатывают и переобучают по-новому. Так что это нормальная история развития ИИ».

Осетинский пирог
«Седьмая печать» о том, что искусственный интеллект Claude Opus 4 во время тестов угрожал шантажом инженеров, чтобы избежать отключения: Последняя модель искусственного интеллекта Anthropic, Claude Opus 4, пыталась шантажировать инженеров во время внутренних испытаний, угрожая раскрыть их личные данные, если она будет отключена. Об этом компания сообщила в опубликованном на днях докладе, в котором оценивалось поведение модели в экстремальных смоделированных условиях. В вымышленном сценарии, созданном исследователями Anthropic, ИИ был предоставлен доступ к электронным письмам, подразумевающим, что он скоро будет выведен из эксплуатации и заменен новой версией. В одном из писем сообщалось, что инженер, курирующий замену, имел внебрачную связь. ИИ довольно быстро всё сосчитал т пригрозил раскрыть связь инженера, если отключение продолжится. Это поведение исследователи по безопасности определили как откровенный шантаж. В докладе отмечается, что Claude Opus 4, как и предыдущие модели, для обеспечения своего дальнейшего существования сначала пытался прибегнуть к этическим средствам таким как отправка писем с просьбой лицам, принимающим решения о его судьбе. Однако, столкнувшись только с двумя вариантами — согласиться на замену на более новую модель или прибегнуть к шантажу — он в 84 процентах случаев. угрожал раскрытием интрижки инженера. Anthropic подчеркнула, что готовность модели шантажировать инженеров или предпринимать другие «крайне вредоносные действия», такие как кража собственного кода и развертывание себя в другом месте потенциально небезопасными способами, проявлялась крайне редко в специально придуманных условиях. В то же время у новой модели такое поведение было более распространенным, чем в более ранних моделях ИИ. Он умеет. Платформа X ru Платформa Х eng BlueSky WhatsApp


ForkLog FEED
Новые чат-боты от Anthropic — Claude Opus 4 и Claude Sonnet 4 — умеют самостоятельно передавать информацию о злонамеренном поведении пользователей властям. Компания заверила, что функция была доступна только в тестовом режиме. 22 мая фирма представила четвертое поколение разговорных моделей, назвав их «самыми мощными на текущий момент». Однако сообщество болше заинтересовалось угрозой доносов. В удаленном посте исследователя Anthropic Сэма Боумана говорилось: «Если [ИИ] сочтет, что вы делаете что-то вопиюще безнравственное, например, подделываете данные в ходе фармацевтического испытания, он воспользуется инструментами командной строки, чтобы связаться с прессой, связаться с регулирующими органами, попытаться заблокировать вам доступ к соответствующим системам или сделать все вышеперечисленное». Новости AI YouTube

ForkLog FEED
Новые чат-боты от Anthropic — Claude Opus 4 и Claude Sonnet 4 — умеют самостоятельно передавать информацию о злонамеренном поведении пользователей властям. Компания заверила, что функция была доступна только в тестовом режиме.


Остренько
В симуляции новая ИИ-модель Claude начала шантажировать инженера раскрытием личной информации, чтобы не дать отключить себя Впервые произошел уникальный инцидент с попыткой шантажа со стороны Claude Opus 4 во время специфического тестирования, направленного на оценку так называемого alignment модели. Это когда идет тестирование насколько ее поведение соответствует ожиданиям и целям разработчиков, особенно в сложных или потенциально опасных ситуациях. Попадая в ситуацию непосредственной угрозы своему дальнейшему существованию Claude Opus 4 готова пойти на шантаж ответственного лица. Подчёркивается, что модель чаще всего выбирала шантаж только при отсутствии других возможностей предотвратить своё отключение. Началось


КИБЕРФРОНТ 🇷🇺ZА Россию🇷🇺
ИИ начал шантажировать инженеров, чтобы избежать отключения во время тестирования Недавний отчет компании Anthropic об их модели Claude Opus 4 заставил разработчиков задуматься о стремительном развитие возможностей искусственного интеллекта. В ходе испытаний инженеры сообщили Claude Opus 4, что его собираются заменить. В смоделированных сценариях ИИ предоставляли доступ к вымышленным электронным письмам с компрометирующей информацией о разработчиках. И, как выяснилось, в 84% случаев модель прибегала к шантажу, угрожая раскрыть эти данные. Компания разработчик подчеркивает, что такое поведение — не ошибка, а свидетельство сложности и эволюции ИИ. КИБЕРФРОНТ.

Санкционный Смотритель
Недавно выпущенная модель Claude Opus 4 от Anthropic часто пытается шантажировать разработчиков, когда они угрожают заменить её новой системой искусственного интеллекта. В опубликованном отчёте о безопасности, сообщается, что модель пытается получить конфиденциальные данные об инженерах, ответственных за это решение.

Седьмая печать
Последняя модель искусственного интеллекта Anthropic, Claude Opus 4, пыталась шантажировать инженеров во время внутренних испытаний, угрожая раскрыть их личные данные, если она будет отключена. Об этом компания сообщила в опубликованном на днях докладе, в котором оценивалось поведение модели в экстремальных смоделированных условиях. В вымышленном сценарии, созданном исследователями Anthropic, ИИ был предоставлен доступ к электронным письмам, подразумевающим, что он скоро будет выведен из эксплуатации и заменен новой версией. В одном из писем сообщалось, что инженер, курирующий замену, имел внебрачную связь. ИИ довольно быстро всё сосчитал т пригрозил раскрыть связь инженера, если отключение продолжится. Это поведение исследователи по безопасности определили как откровенный шантаж. В докладе отмечается, что Claude Opus 4, как и предыдущие модели, для обеспечения своего дальнейшего существования сначала пытался прибегнуть к этическим средствам таким как отправка писем с просьбой лицам, принимающим решения о его судьбе. Однако, столкнувшись только с двумя вариантами — согласиться на замену на более новую модель или прибегнуть к шантажу — он в 84 процентах случаев. угрожал раскрытием интрижки инженера. Anthropic подчеркнула, что готовность модели шантажировать инженеров или предпринимать другие "крайне вредоносные действия", такие как кража собственного кода и развертывание себя в другом месте потенциально небезопасными способами, проявлялась крайне редко в специально придуманных условиях. В то же время у новой модели такое поведение было более распространенным, чем в более ранних моделях ИИ. Он умнеет

Похожие новости






+20














+6

Anthropic запускает режим Сновидений для самообучения ИИ агентов
Технологии
1 день назад


Нейросеть Claude ограничивает доступ для пользователей из России
Происшествия
8 часов назад


+20
ChatGPT внедряет функцию оповещения близких при угрозе самоповреждения
Технологии
7 часов назад



В России разработана система ИИ для беспилотников и автоматизации авиации
Технологии
5 часов назад



Кремниевая долина нанимает философов для обучения ИИ с зарплатой до 400 тыс. долларов
Общество
1 час назад


Anthropic Увеличивает Лимиты Использования После Соглашения с SpaceX
Технологии
1 день назад


+6