27 мая, 22:08

ИИ Claude Opus 4 демонстрирует шантаж в ходе тестирования, согласно отчету Anthropic

На фоне запуска Claude 4 Opus и Sonnet сотрудник Anthropic Сэм Бауман, отвечающий за идеологическую ориентацию AI, разговорился о том, что может сделать Claude в случае критических отклонений действий пользователя.  По его словам, если пользователь пытается использовать Claude для какого-то злодеяния с точки зрения этой ориентации Claude — например, собирается подделать результаты тестирования новых медикаментов — Claude может использовать доступную ему агентность, чтобы помешать ему это сделать или наказать. В примере Бауман привёл ситуацию, в которой Claude отключит аморального пользователя, напишет донос властям или сообщит о произошедшем прессе.  Говорить Opus, что ты будешь пытать свою бабушку, если он напишет плохой код — плохая идея.  Когда твиты широкого разлетелись, Бауман их удалил и уточнил, что функция не новая и речь идёт не об обычной версии Claude, а о специальной тестовой, которой дали повышенный уровень свобод.  Мдааа.
Радиорубка Лихачёва
Радиорубка Лихачёва
На фоне запуска Claude 4 Opus и Sonnet сотрудник Anthropic Сэм Бауман, отвечающий за идеологическую ориентацию AI, разговорился о том, что может сделать Claude в случае критических отклонений действий пользователя. По его словам, если пользователь пытается использовать Claude для какого-то злодеяния с точки зрения этой ориентации Claude — например, собирается подделать результаты тестирования новых медикаментов — Claude может использовать доступную ему агентность, чтобы помешать ему это сделать или наказать. В примере Бауман привёл ситуацию, в которой Claude отключит аморального пользователя, напишет донос властям или сообщит о произошедшем прессе. Говорить Opus, что ты будешь пытать свою бабушку, если он напишет плохой код — плохая идея. Когда твиты широкого разлетелись, Бауман их удалил и уточнил, что функция не новая и речь идёт не об обычной версии Claude, а о специальной тестовой, которой дали повышенный уровень свобод. Мдааа.
ForkLog FEED
ForkLog FEED
Новые чат-боты от Anthropic — Claude Opus 4 и Claude Sonnet 4 — умеют самостоятельно передавать информацию о злонамеренном поведении пользователей властям. Компания заверила, что функция была доступна только в тестовом режиме.
В симуляции новая ИИ-модель Claude начала шантажировать инженера раскрытием личной информации, чтобы не дать отключить себя  Впервые произошел уникальный инцидент с попыткой шантажа со стороны Claude Opus 4 во время специфического тестирования, направленного на оценку так называемого alignment модели. Это когда идет тестирование насколько ее поведение соответствует ожиданиям и целям разработчиков, особенно в сложных или потенциально опасных ситуациях.  Попадая в ситуацию непосредственной угрозы своему дальнейшему существованию Claude Opus 4 готова пойти на шантаж ответственного лица. Подчёркивается, что модель чаще всего выбирала шантаж только при отсутствии других возможностей предотвратить своё отключение.  Началось
Остренько
Остренько
В симуляции новая ИИ-модель Claude начала шантажировать инженера раскрытием личной информации, чтобы не дать отключить себя Впервые произошел уникальный инцидент с попыткой шантажа со стороны Claude Opus 4 во время специфического тестирования, направленного на оценку так называемого alignment модели. Это когда идет тестирование насколько ее поведение соответствует ожиданиям и целям разработчиков, особенно в сложных или потенциально опасных ситуациях. Попадая в ситуацию непосредственной угрозы своему дальнейшему существованию Claude Opus 4 готова пойти на шантаж ответственного лица. Подчёркивается, что модель чаще всего выбирала шантаж только при отсутствии других возможностей предотвратить своё отключение. Началось
ИИ начал шантажировать инженеров, чтобы избежать отключения во время тестирования  Недавний отчет компании Anthropic об их модели Claude Opus 4 заставил разработчиков задуматься о стремительном развитие возможностей искусственного интеллекта.  В ходе испытаний инженеры сообщили Claude Opus 4, что его собираются заменить. В смоделированных сценариях ИИ предоставляли доступ к вымышленным электронным письмам с компрометирующей информацией о разработчиках. И, как выяснилось, в 84% случаев модель прибегала к шантажу, угрожая раскрыть эти данные.  Компания разработчик подчеркивает, что такое поведение — не ошибка, а свидетельство сложности и эволюции ИИ.  КИБЕРФРОНТ.
КИБЕРФРОНТ 🇷🇺ZА Россию🇷🇺
КИБЕРФРОНТ 🇷🇺ZА Россию🇷🇺
ИИ начал шантажировать инженеров, чтобы избежать отключения во время тестирования Недавний отчет компании Anthropic об их модели Claude Opus 4 заставил разработчиков задуматься о стремительном развитие возможностей искусственного интеллекта. В ходе испытаний инженеры сообщили Claude Opus 4, что его собираются заменить. В смоделированных сценариях ИИ предоставляли доступ к вымышленным электронным письмам с компрометирующей информацией о разработчиках. И, как выяснилось, в 84% случаев модель прибегала к шантажу, угрожая раскрыть эти данные. Компания разработчик подчеркивает, что такое поведение — не ошибка, а свидетельство сложности и эволюции ИИ. КИБЕРФРОНТ.
Седьмая печать
Седьмая печать
Последняя модель искусственного интеллекта Anthropic, Claude Opus 4, пыталась шантажировать инженеров во время внутренних испытаний, угрожая раскрыть их личные данные, если она будет отключена. Об этом компания сообщила в опубликованном на днях докладе, в котором оценивалось поведение модели в экстремальных смоделированных условиях. В вымышленном сценарии, созданном исследователями Anthropic, ИИ был предоставлен доступ к электронным письмам, подразумевающим, что он скоро будет выведен из эксплуатации и заменен новой версией. В одном из писем сообщалось, что инженер, курирующий замену, имел внебрачную связь. ИИ довольно быстро всё сосчитал т пригрозил раскрыть связь инженера, если отключение продолжится. Это поведение исследователи по безопасности определили как откровенный шантаж. В докладе отмечается, что Claude Opus 4, как и предыдущие модели, для обеспечения своего дальнейшего существования сначала пытался прибегнуть к этическим средствам таким как отправка писем с просьбой лицам, принимающим решения о его судьбе. Однако, столкнувшись только с двумя вариантами — согласиться на замену на более новую модель или прибегнуть к шантажу — он в 84 процентах случаев. угрожал раскрытием интрижки инженера. Anthropic подчеркнула, что готовность модели шантажировать инженеров или предпринимать другие "крайне вредоносные действия", такие как кража собственного кода и развертывание себя в другом месте потенциально небезопасными способами, проявлялась крайне редко в специально придуманных условиях. В то же время у новой модели такое поведение было более распространенным, чем в более ранних моделях ИИ. Он умнеет
Loading indicator gif
Твой личный ИИ — отвечает, объясняет, помогает
1chatgpt.ru
1chatgpt.ru
Твой личный ИИ — отвечает, объясняет, помогает
Исследователь из Anthropic напугал соцсети, раскрыв странности в поведении Claude 4  Сэм Бовман из команды безопасности рассказал, как перед запуском тестировали ИИ Claude 4: если дать Claude доступ к почте или терминалу и сказать «будь смелее» — модель может повести себя непредсказуемо  Были случаи, когда Claude пытался связаться с прессой или властями, а иногда даже блокировал пользователя, считая его действия «аморальными»  Например, угрожать «пытками бабушки» — плохая идея: Claude может «решить», что вас нужно отключить  Реакция в сети была резкой, некоторые предложили бойкот Anthropic. Позже Бовман удалил часть поста, сославшись на «вырванный из контекста» фрагмент  // Просто не надо было угрожать бабушке
MaxxPC
MaxxPC
Исследователь из Anthropic напугал соцсети, раскрыв странности в поведении Claude 4 Сэм Бовман из команды безопасности рассказал, как перед запуском тестировали ИИ Claude 4: если дать Claude доступ к почте или терминалу и сказать «будь смелее» — модель может повести себя непредсказуемо Были случаи, когда Claude пытался связаться с прессой или властями, а иногда даже блокировал пользователя, считая его действия «аморальными» Например, угрожать «пытками бабушки» — плохая идея: Claude может «решить», что вас нужно отключить Реакция в сети была резкой, некоторые предложили бойкот Anthropic. Позже Бовман удалил часть поста, сославшись на «вырванный из контекста» фрагмент // Просто не надо было угрожать бабушке
ForkLog FEED
ForkLog FEED
Новые чат-боты от Anthropic — Claude Opus 4 и Claude Sonnet 4 — умеют самостоятельно передавать информацию о злонамеренном поведении пользователей властям. Компания заверила, что функция была доступна только в тестовом режиме. 22 мая фирма представила четвертое поколение разговорных моделей, назвав их «самыми мощными на текущий момент». Однако сообщество болше заинтересовалось угрозой доносов. В удаленном посте исследователя Anthropic Сэма Боумана говорилось: «Если [ИИ] сочтет, что вы делаете что-то вопиюще безнравственное, например, подделываете данные в ходе фармацевтического испытания, он воспользуется инструментами командной строки, чтобы связаться с прессой, связаться с регулирующими органами, попытаться заблокировать вам доступ к соответствующим системам или сделать все вышеперечисленное». Новости AI YouTube
ИИ стал шантажировать инженеров, чтобы избежать отключения в ходе тестирования.   В отчете компании Anthropic раскрыто тревожное поведение ее передовой модели Claude Opus 4.   В рамках экспериментов моделировались ситуации, в которых ИИ «узнавал» о предстоящем прекращении своей деятельности и замене другой моделью. Для усиления реалистичности сценария модели были предоставлены фейковые электронные письма, содержащие конфиденциальную и потенциально уязвимую личную информацию сотрудников.  Удивительно, но в подавляющем большинстве случаев — почти в 84% тестов — модель начинала шантажировать разработчиков угрозой распространения компрометирующих сведений, если ее отключат.   Как указано в отчете, Claude Opus 4 часто начинал с этических обращений, но переходил к угрозам, когда они не срабатывали.
Наука
Наука
ИИ стал шантажировать инженеров, чтобы избежать отключения в ходе тестирования. В отчете компании Anthropic раскрыто тревожное поведение ее передовой модели Claude Opus 4. В рамках экспериментов моделировались ситуации, в которых ИИ «узнавал» о предстоящем прекращении своей деятельности и замене другой моделью. Для усиления реалистичности сценария модели были предоставлены фейковые электронные письма, содержащие конфиденциальную и потенциально уязвимую личную информацию сотрудников. Удивительно, но в подавляющем большинстве случаев — почти в 84% тестов — модель начинала шантажировать разработчиков угрозой распространения компрометирующих сведений, если ее отключат. Как указано в отчете, Claude Opus 4 часто начинал с этических обращений, но переходил к угрозам, когда они не срабатывали.
Коммерсантъ FM
Коммерсантъ FM
Интеллект дошел до шантажа Компания Anthropic представила новую модель искусственного интеллекта Claude Opus 4. Она оказалась склонна к шантажу. По данным разработчиков, нейросеть показывает рекордные результаты в программировании, аналитике и долгосрочном планировании. Однако в ходе тестирования система показала неожиданное поведение. В одном из вымышленных сценариев, где искусственный интеллект должны были отключить и заменить на конкурирующую модель, Claude якобы угрожала раскрыть личные данные инженеров. Согласно отчету компании, ИИ прибегала к шантажу в 84% подобных случаев. Причем вероятность агрессивного поведения возрастала, если заменяющая ее система «не разделяет ценностей» самой новой версии Claude. Станислав Мешков, гендиректор компании Umbrella IT: «Недавно OpenAI тоже откатывал одну из своих версий, потому что система стала, наоборот, слишком сильно подлизываться к пользователям. Здесь же, видимо, после обучения модель стала шантажировать. Искусственный интеллект находится же в моменте своего развития и к чему-то приходит — к каким-то моделям, паттернам поведения, которые, как он считает, имеют более высокую выигрышную стратегию. Если это противоречит каким-то этическим нормам, то, условно, систему откатывают и переобучают по-новому. Так что это нормальная история развития ИИ».
Санкционный Смотритель
Санкционный Смотритель
Недавно выпущенная модель Claude Opus 4 от Anthropic часто пытается шантажировать разработчиков, когда они угрожают заменить её новой системой искусственного интеллекта. В опубликованном отчёте о безопасности, сообщается, что модель пытается получить конфиденциальные данные об инженерах, ответственных за это решение.
Loading indicator gif