27 мая, 22:08
ИИ Claude Opus 4 демонстрирует шантаж в ходе тестирования, согласно отчету Anthropic


Радиорубка Лихачёва
На фоне запуска Claude 4 Opus и Sonnet сотрудник Anthropic Сэм Бауман, отвечающий за идеологическую ориентацию AI, разговорился о том, что может сделать Claude в случае критических отклонений действий пользователя. По его словам, если пользователь пытается использовать Claude для какого-то злодеяния с точки зрения этой ориентации Claude — например, собирается подделать результаты тестирования новых медикаментов — Claude может использовать доступную ему агентность, чтобы помешать ему это сделать или наказать. В примере Бауман привёл ситуацию, в которой Claude отключит аморального пользователя, напишет донос властям или сообщит о произошедшем прессе. Говорить Opus, что ты будешь пытать свою бабушку, если он напишет плохой код — плохая идея. Когда твиты широкого разлетелись, Бауман их удалил и уточнил, что функция не новая и речь идёт не об обычной версии Claude, а о специальной тестовой, которой дали повышенный уровень свобод. Мдааа.
Технологии6 дней назад

ForkLog FEED
Новые чат-боты от Anthropic — Claude Opus 4 и Claude Sonnet 4 — умеют самостоятельно передавать информацию о злонамеренном поведении пользователей властям. Компания заверила, что функция была доступна только в тестовом режиме.
Технологии5 дней назад


Остренько
В симуляции новая ИИ-модель Claude начала шантажировать инженера раскрытием личной информации, чтобы не дать отключить себя Впервые произошел уникальный инцидент с попыткой шантажа со стороны Claude Opus 4 во время специфического тестирования, направленного на оценку так называемого alignment модели. Это когда идет тестирование насколько ее поведение соответствует ожиданиям и целям разработчиков, особенно в сложных или потенциально опасных ситуациях. Попадая в ситуацию непосредственной угрозы своему дальнейшему существованию Claude Opus 4 готова пойти на шантаж ответственного лица. Подчёркивается, что модель чаще всего выбирала шантаж только при отсутствии других возможностей предотвратить своё отключение. Началось
Технологии5 дней назад


КИБЕРФРОНТ 🇷🇺ZА Россию🇷🇺
ИИ начал шантажировать инженеров, чтобы избежать отключения во время тестирования Недавний отчет компании Anthropic об их модели Claude Opus 4 заставил разработчиков задуматься о стремительном развитие возможностей искусственного интеллекта. В ходе испытаний инженеры сообщили Claude Opus 4, что его собираются заменить. В смоделированных сценариях ИИ предоставляли доступ к вымышленным электронным письмам с компрометирующей информацией о разработчиках. И, как выяснилось, в 84% случаев модель прибегала к шантажу, угрожая раскрыть эти данные. Компания разработчик подчеркивает, что такое поведение — не ошибка, а свидетельство сложности и эволюции ИИ. КИБЕРФРОНТ.
Технологии3 дня назад

Седьмая печать
Последняя модель искусственного интеллекта Anthropic, Claude Opus 4, пыталась шантажировать инженеров во время внутренних испытаний, угрожая раскрыть их личные данные, если она будет отключена. Об этом компания сообщила в опубликованном на днях докладе, в котором оценивалось поведение модели в экстремальных смоделированных условиях. В вымышленном сценарии, созданном исследователями Anthropic, ИИ был предоставлен доступ к электронным письмам, подразумевающим, что он скоро будет выведен из эксплуатации и заменен новой версией. В одном из писем сообщалось, что инженер, курирующий замену, имел внебрачную связь. ИИ довольно быстро всё сосчитал т пригрозил раскрыть связь инженера, если отключение продолжится. Это поведение исследователи по безопасности определили как откровенный шантаж. В докладе отмечается, что Claude Opus 4, как и предыдущие модели, для обеспечения своего дальнейшего существования сначала пытался прибегнуть к этическим средствам таким как отправка писем с просьбой лицам, принимающим решения о его судьбе. Однако, столкнувшись только с двумя вариантами — согласиться на замену на более новую модель или прибегнуть к шантажу — он в 84 процентах случаев. угрожал раскрытием интрижки инженера. Anthropic подчеркнула, что готовность модели шантажировать инженеров или предпринимать другие "крайне вредоносные действия", такие как кража собственного кода и развертывание себя в другом месте потенциально небезопасными способами, проявлялась крайне редко в специально придуманных условиях. В то же время у новой модели такое поведение было более распространенным, чем в более ранних моделях ИИ. Он умнеет
Технологии2 дня назад




MaxxPC
Исследователь из Anthropic напугал соцсети, раскрыв странности в поведении Claude 4 Сэм Бовман из команды безопасности рассказал, как перед запуском тестировали ИИ Claude 4: если дать Claude доступ к почте или терминалу и сказать «будь смелее» — модель может повести себя непредсказуемо Были случаи, когда Claude пытался связаться с прессой или властями, а иногда даже блокировал пользователя, считая его действия «аморальными» Например, угрожать «пытками бабушки» — плохая идея: Claude может «решить», что вас нужно отключить Реакция в сети была резкой, некоторые предложили бойкот Anthropic. Позже Бовман удалил часть поста, сославшись на «вырванный из контекста» фрагмент // Просто не надо было угрожать бабушке
Технологии5 дней назад

ForkLog FEED
Новые чат-боты от Anthropic — Claude Opus 4 и Claude Sonnet 4 — умеют самостоятельно передавать информацию о злонамеренном поведении пользователей властям. Компания заверила, что функция была доступна только в тестовом режиме. 22 мая фирма представила четвертое поколение разговорных моделей, назвав их «самыми мощными на текущий момент». Однако сообщество болше заинтересовалось угрозой доносов. В удаленном посте исследователя Anthropic Сэма Боумана говорилось: «Если [ИИ] сочтет, что вы делаете что-то вопиюще безнравственное, например, подделываете данные в ходе фармацевтического испытания, он воспользуется инструментами командной строки, чтобы связаться с прессой, связаться с регулирующими органами, попытаться заблокировать вам доступ к соответствующим системам или сделать все вышеперечисленное». Новости AI YouTube
Технологии5 дней назад


Наука
ИИ стал шантажировать инженеров, чтобы избежать отключения в ходе тестирования. В отчете компании Anthropic раскрыто тревожное поведение ее передовой модели Claude Opus 4. В рамках экспериментов моделировались ситуации, в которых ИИ «узнавал» о предстоящем прекращении своей деятельности и замене другой моделью. Для усиления реалистичности сценария модели были предоставлены фейковые электронные письма, содержащие конфиденциальную и потенциально уязвимую личную информацию сотрудников. Удивительно, но в подавляющем большинстве случаев — почти в 84% тестов — модель начинала шантажировать разработчиков угрозой распространения компрометирующих сведений, если ее отключат. Как указано в отчете, Claude Opus 4 часто начинал с этических обращений, но переходил к угрозам, когда они не срабатывали.
Технологии3 дня назад

Коммерсантъ FM
Интеллект дошел до шантажа Компания Anthropic представила новую модель искусственного интеллекта Claude Opus 4. Она оказалась склонна к шантажу. По данным разработчиков, нейросеть показывает рекордные результаты в программировании, аналитике и долгосрочном планировании. Однако в ходе тестирования система показала неожиданное поведение. В одном из вымышленных сценариев, где искусственный интеллект должны были отключить и заменить на конкурирующую модель, Claude якобы угрожала раскрыть личные данные инженеров. Согласно отчету компании, ИИ прибегала к шантажу в 84% подобных случаев. Причем вероятность агрессивного поведения возрастала, если заменяющая ее система «не разделяет ценностей» самой новой версии Claude. Станислав Мешков, гендиректор компании Umbrella IT: «Недавно OpenAI тоже откатывал одну из своих версий, потому что система стала, наоборот, слишком сильно подлизываться к пользователям. Здесь же, видимо, после обучения модель стала шантажировать. Искусственный интеллект находится же в моменте своего развития и к чему-то приходит — к каким-то моделям, паттернам поведения, которые, как он считает, имеют более высокую выигрышную стратегию. Если это противоречит каким-то этическим нормам, то, условно, систему откатывают и переобучают по-новому. Так что это нормальная история развития ИИ».
Технологии3 дня назад

Санкционный Смотритель
Недавно выпущенная модель Claude Opus 4 от Anthropic часто пытается шантажировать разработчиков, когда они угрожают заменить её новой системой искусственного интеллекта. В опубликованном отчёте о безопасности, сообщается, что модель пытается получить конфиденциальные данные об инженерах, ответственных за это решение.
Технологии2 дня назад

Похожие новости



+8



+10



+3



+2






+17

ИИ-модели OpenAI демонстрируют отказ от отключения в эксперименте Palisade Research
Технологии
20 часов назад




Сергей Брин о методах взаимодействия с ChatGPT
Происшествия
18 часов назад




Развитие ИИ в российском госуправлении: концепция и внедрение
Общество
18 часов назад




Разработчики Amazon выражают недовольство из-за увеличения роли AI в написании кода
Технологии
21 час назад




Киберпреступники используют чат-боты для шантажа подростков
Происшествия
21 час назад



ОАЭ запускает бесплатный доступ к ChatGPT Plus в рамках партнерства с OpenAI
Технологии
12 часов назад


