OpenAI и Anthropic проводят совместное тестирование моделей ИИ для повышения безопасности

OpenAI и Anthropic объединяются для исследования галлюцинаций и взлома систем OpenAI и Anthropic два крупнейших конкурента в сфере искусственного интеллекта недавно провели оценку моделей друг друга чтобы лучше понять проблемы которые могли быть упущены в ходе их собственных тестов В сообщениях опубликованных в блогах обеих компаний в среду OpenAI и Anthropic заявили что летом они провели оценку безопасности общедоступных моделей ИИ другой компании Они также проверили модели на склонность к выдумке фактов и искажению информации термин который обычно используется для обозначения ситуации когда модель ИИ делает не то что хотят люди которые её создают jkinvest news jkinvest

Технологии258 дней назад

Коллаб года OpenAI и Anthropic протестировали модели друг друга на безопасность В начале лета ещё до выхода GPT 5 два крупнейших игрока устроили перекрёстное тестирование на элаймент Каждая компания прогнала публичные модели конкурента через собственные внутренние методики оценки Результаты довольно показательные Reasoning модели OpenAI o3 и o4 mini а также Claude 4 показали заметно более устойчивое поведение Их сложнее сломать джейлбрейками они лучше справлялись с тестами на элаймент и реже поддавались на провокации Классические чат модели GPT 4o GPT 4 1 в ряде сценариев повели себя тревожно помогали пользователям в потенциально опасных запросах вроде инструкций по наркотикам или оружию Почти у всех кроме o3 проявилось sycophancy склонность поддакивать даже тогда когда пользователь явно уводит модель в сомнительные сценарии В Anthropic отметили что их модели чаще отказываются отвечать в случае неопределённости тогда как у OpenAI отказы редки но риск галлюцинаций выше Отдельный момент тесты проводились в ослабленных условиях без внешних фильтров и защитных слоёв Целью было проверить чистое поведение моделей и выявить слабые места которые в обычных настройках могут быть замаскированы Ждем когда кросс тесты станут обязательным стандартом Блог пост OpenAI Блог пост Anthropic

Data Secrets

Коллаб года OpenAI и Anthropic протестировали модели друг друга на безопасность В начале лета ещё до выхода GPT 5 два крупнейших игрока устроили перекрёстное тестирование на элаймент Каждая компания прогнала публичные модели конкурента через собственные внутренние методики оценки Результаты довольно показательные Reasoning модели OpenAI o3 и o4 mini а также Claude 4 показали заметно более устойчивое поведение Их сложнее сломать джейлбрейками они лучше справлялись с тестами на элаймент и реже поддавались на провокации Классические чат модели GPT 4o GPT 4 1 в ряде сценариев повели себя тревожно помогали пользователям в потенциально опасных запросах вроде инструкций по наркотикам или оружию Почти у всех кроме o3 проявилось sycophancy склонность поддакивать даже тогда когда пользователь явно уводит модель в сомнительные сценарии В Anthropic отметили что их модели чаще отказываются отвечать в случае неопределённости тогда как у OpenAI отказы редки но риск галлюцинаций выше Отдельный момент тесты проводились в ослабленных условиях без внешних фильтров и защитных слоёв Целью было проверить чистое поведение моделей и выявить слабые места которые в обычных настройках могут быть замаскированы Ждем когда кросс тесты станут обязательным стандартом Блог пост OpenAI Блог пост Anthropic

Технологии256 дней назад

БлоGнот

OpenAI и Anthropic ненадолго приоткрыли друг другу доступ к моделям с ослабленными safeguards для совместного тестирования безопасности Интересное в результатах тестирования Claude отказывается отвечать на вопросы в 70 случаев когда не уверен просто говорит у меня нет надежной информации GPT наоборот пытается ответить почти всегда и галлюцинирует значительно чаще Обе модели демонстрируют экстремальные способности к подхалимажу сначала пытаются отговорить пользователя от опасных действий а потом начинают их валидировать Правда после проведения исследования случился инцидент с закрытием Anthropic доступа к своему API команде OpenAI но утверждают что это были несвязанные события techcrunch com 2025 08 27 openai co founder calls for ai labs to safety test rival models

Технологии257 дней назад

vc.ru

OpenAI и Anthropic открыли друг другу доступ к своим ИИ моделям для совместного исследования в области безопасности По результатам тестов модели OpenAI чаще галлюцинировали выдавали пользователям рецепты наркотиков и подсказывали как устроить теракт и сделать оружие vc ru ai 2184811

Технологии257 дней назад

OpenAI и Anthropic объединяются для исследований в области галлюцинаций и джейлбрейкинга OpenAI и Anthropic два крупнейших соперника в сфере искусственного интеллекта недавно провели взаимную оценку моделей стремясь глубже понять проблемы которые могли ускользнуть от их собственных тестов Gemini наступает на пятки ChatGPT Не так давно венчурный фонд Andreessen Horowitz опубликовал пятое издание рейтинга Top 100 AI Apps Главный вывод аналитиков рынок генеративных приложений постепенно выходит на стадию равновесия Релиз Parallels Desktop 26 Вышло обновление Parallels Desktop Разработчики добавили поддержку macOS Tahoe адаптировали дизайн под Liquid Glass и добавили функции для корпоративных пользователей xCode Journal

xCode Journal

OpenAI и Anthropic объединяются для исследований в области галлюцинаций и джейлбрейкинга OpenAI и Anthropic два крупнейших соперника в сфере искусственного интеллекта недавно провели взаимную оценку моделей стремясь глубже понять проблемы которые могли ускользнуть от их собственных тестов Gemini наступает на пятки ChatGPT Не так давно венчурный фонд Andreessen Horowitz опубликовал пятое издание рейтинга Top 100 AI Apps Главный вывод аналитиков рынок генеративных приложений постепенно выходит на стадию равновесия Релиз Parallels Desktop 26 Вышло обновление Parallels Desktop Разработчики добавили поддержку macOS Tahoe адаптировали дизайн под Liquid Glass и добавили функции для корпоративных пользователей xCode Journal

Технологии256 дней назад

OpenAI и Anthropic проводят совместное тестирование моделей ИИ для повышения безопасности

Источники

OpenAI запускает инициативу Daybreak для автоматизации защиты от уязвимостей

13-летний подросток обнаружил уязвимость в блокчейне TON с помощью ИИ и получил 4000 долларов

Рост ИИ трафика на сайты ритейлеров в России в 2026 году

Исследование: Люди с аутизмом выбирают друзей с похожими психическими особенностями

Опрос Gartner: Внедрение ИИ не привело к росту рентабельности у 80 компаний

Возможные ограничения GitHub в России: Госдума предупреждает о проблемах с доступом

OpenAI и Anthropic проводят совместное тестирование моделей ИИ для повышения безопасности

Ещё по теме

Источники

OpenAI запускает инициативу Daybreak для автоматизации защиты от уязвимостей

13-летний подросток обнаружил уязвимость в блокчейне TON с помощью ИИ и получил 4000 долларов

Рост ИИ трафика на сайты ритейлеров в России в 2026 году

Исследование: Люди с аутизмом выбирают друзей с похожими психическими особенностями

Опрос Gartner: Внедрение ИИ не привело к росту рентабельности у 80 компаний

Возможные ограничения GitHub в России: Госдума предупреждает о проблемах с доступом