18 августа, 12:15
Anthropic обновляет политику использования Claude AI для повышения безопасности
Чёрный Треугольник
Anthropic обновила политику использования чат-бота Claude AI Новые правила строго запрещают применение Claude для разработки различных видов оружия, включая биологическое, ядерное и высокоэнергетические взрывчатые вещества. Также добавлен раздел, касающийся недопустимости компрометации компьютерных или сетевых систем, что запрещает использование Claude для поиска уязвимостей и создания вредоносного ПО. Кроме того, Anthropic смягчает свою политику в отношении политического контента. Вместо запрета на создание любого контента, связанного с политическими кампаниями и лоббированием, Anthropic теперь будет запрещать использование Claude только в «случаях, которые вводят в заблуждение или нарушают демократические процессы, а также связаны с таргетированием избирателей и проведением кампаний». Корпорация также сообщает, что с выходом модели Claude Opus 4 введена защита «AI Safety Level 3», которая предотвращает jailbreak и и разработки оружия. ================ News Soft Gear Links
ForkLog
Разработчики Anthropic научили чат-ботов Claude Opus 4 и 4.1 завершать диалог «в редких, экстремальных случаях систематически вредоносного или оскорбительного взаимодействия». Однако это необходимо не для защиты пользователей, а для безопасности самой модели. Компания изучила «благополучие» нейросети — ее самооценку и поведенческие предпочтения. Помимо «устойчивой неприязни к насилию» Claude продемонстрировал: ⏺ явное предпочтение не заниматься задачами, которые могут навредить; ⏺ стресс при ответах на подобные запросы; ⏺ тенденцию к прекращению нежелательных разговоров при наличии возможности. В Anthropic пообещали сохранять историю в случае остановки переписки. Новости AI YouTube
ARCHiTECH 🔥 Новости ПК и игр
Anthropic научила модели Claude обрывать опасные диалоги для защиты не человека, а ИИ Гопники-программисты из Anthropic добавили в модели Claude Opus 4 и 4.1 возможность завершать диалог в случаях крайне вредоносного или оскорбительного поведения пользователя. Компания объясняет это не защитой человека, а заботой о благополучии модели. Ограничение действует в редких и крайних ситуациях, например при запросах крайне неэтичных данных или информации, способной привести к масштабному насилию. Claude проинструктирован не использовать эту возможность, если существует риск, что человек намерен причинить вред себе или другим. Дожили, гопники-программисты теперь защищают ИИ от нас, вместо того чтобы перестать разрабатывать Скайнет несущий Судный День — степень дебилизма зашкаливает. #ИИ #Anthropic #Дичь #Claude Чат
ИИ в деле
Anthropic включили в Claude Opus 4 и 4 1 новую механику завершение диалога Если пользователь упорно требует от бота запрещённое или продолжает оскорблять модель теперь может просто сама закончить разговор На первый взгляд это техническая мера безопасности Но интереснее формулировка самой компании они вводят термин model welfare благополучие модели Сознание тут ни при чём но прецедент любопытный впервые AI сам решает хочет ли он продолжать общение
PRO AI | ПОЛЕЗНЫЙ СОФТ | НОВОСТИ
Модели Claude от Anthropic теперь могут завершать разговоры с пользователями, которые пытаются заставить их генерировать вредоносный или оскорбительный контент. Это нововведение направлено на повышение безопасности и этичности взаимодействия с ИИ. AI OFFICIAL
ForkLog FEED
Разработчики Anthropic научили чат-ботов Claude Opus 4 и 4.1 завершать диалог «в редких, экстремальных случаях систематически вредоносного или оскорбительного взаимодействия». Однако это необходимо не для защиты пользователей, а для безопасности самой модели. Компания изучила «благополучие» нейросети — ее самооценку и поведенческие предпочтения. Помимо «устойчивой неприязни к насилию» Claude продемонстрировал: ⏺ явное предпочтение не заниматься задачами, которые могут навредить; ⏺ стресс при ответах на подобные запросы; ⏺ тенденцию к прекращению нежелательных разговоров при наличии возможности. В Anthropic пообещали сохранять историю в случае остановки переписки. Новости AI YouTube
DNS_Club
Anthropic научила модели Claude обрывать опасные диалоги для защиты не человека, а ИИ Anthropic добавила в модели Claude Opus 4 и 4.1 возможность завершать диалог в случаях крайне вредоносного или оскорбительного поведения пользователя. Компания объясняет это не защитой человека, а заботой о благополучии модели. В заявлении Anthropic подчеркивается, что речь не идет о наделении Claude сознанием или способностью испытывать страдания. Читать далее
ForkLog FEED
Вы могли это пропустить: Компания Anthropic запрограммировала Claude на завершение диалогов «в редких, экстремальных случаях систематически вредоносного или оскорбительного взаимодействия».
GPT/ChatGPT/AI Central Александра Горного
Anthropic тестирует «право AI сказать стоп» Claude Opus 4 и 4.1 теперь могут завершать диалог в крайних случаях, когда пользователь настойчиво пытается втянуть модель в заведомо вредные или опасные темы. Интересно, что компания объясняет эту функцию заботой не о пользователях, а «о благополучии самих моделей». В Anthropic признают, что не знают, можно ли вообще говорить о каком-то «моральном статусе» AI, но решили подстраховаться: мол, лучше предусмотреть простые меры, если вдруг такое окажется возможным. Прерывать диалог Claude будет только после нескольких неудачных попыток перенаправить разговор. При этом в случаях, где есть риск причинения вреда себе или другим, модель обязана продолжать взаимодействие и не отключаться.
vc.ru
Claude Opus 4 теперь может самостоятельно прекратить диалог, если пользователь оскорбляет модель, запрашивает эротический контент с детьми или, например, инструкцию для бомбы. Во время исследования по улучшению «благополучия моделей» Anthropic заметила, что Claude «беспокоился», когда получал такие запросы, и не хотел их выполнять
Похожие новости +4 +9 +6 +14
Программист создал ИИ-клона для борьбы с одиночеством и улучшения психического здоровья
Происшествия
4 часа назадOpenAI интегрировала Codex в мобильное приложение ChatGPT
Технологии
1 день назадСотрудники крупных компаний используют ИИ для накрутки внутренних метрик
Технологии
1 день назадOpenAI рассматривает иск против Apple из-за неудачного партнерства
Технологии
1 день назадРоссияне сталкиваются с ростом поддельных мессенджеров и киберугроз
Происшествия
1 день назадНейросеть Claude Mythos обнаружила уязвимости в macOS, получив доступ к системе
Технологии
1 день назад