28 августа, 15:05

OpenAI и Anthropic проводят совместное тестирование моделей ИИ для повышения безопасности

OpenAI и Anthropic проводят совместное тестирование моделей ИИ для повышения безопасности
OpenAI и Anthropic объединяются для исследования галлюцинаций и взлома систем OpenAI и Anthropic два крупнейших конкурента в сфере искусственного интеллекта недавно провели оценку моделей друг друга чтобы лучше понять проблемы которые могли быть упущены в ходе их собственных тестов В сообщениях опубликованных в блогах обеих компаний в среду OpenAI и Anthropic заявили что летом они провели оценку безопасности общедоступных моделей ИИ другой компании Они также проверили модели на склонность к выдумке фактов и искажению информации термин который обычно используется для обозначения ситуации когда модель ИИ делает не то что хотят люди которые её создают jkinvest news jkinvest
News.Jkinvest_Finance
News.Jkinvest_Finance
OpenAI и Anthropic объединяются для исследования галлюцинаций и взлома систем OpenAI и Anthropic два крупнейших конкурента в сфере искусственного интеллекта недавно провели оценку моделей друг друга чтобы лучше понять проблемы которые могли быть упущены в ходе их собственных тестов В сообщениях опубликованных в блогах обеих компаний в среду OpenAI и Anthropic заявили что летом они провели оценку безопасности общедоступных моделей ИИ другой компании Они также проверили модели на склонность к выдумке фактов и искажению информации термин который обычно используется для обозначения ситуации когда модель ИИ делает не то что хотят люди которые её создают jkinvest news jkinvest
Коллаб года OpenAI и Anthropic протестировали модели друг друга на безопасность В начале лета ещё до выхода GPT 5 два крупнейших игрока устроили перекрёстное тестирование на элаймент Каждая компания прогнала публичные модели конкурента через собственные внутренние методики оценки Результаты довольно показательные Reasoning модели OpenAI o3 и o4 mini а также Claude 4 показали заметно более устойчивое поведение Их сложнее сломать джейлбрейками они лучше справлялись с тестами на элаймент и реже поддавались на провокации Классические чат модели GPT 4o GPT 4 1 в ряде сценариев повели себя тревожно помогали пользователям в потенциально опасных запросах вроде инструкций по наркотикам или оружию Почти у всех кроме o3 проявилось sycophancy склонность поддакивать даже тогда когда пользователь явно уводит модель в сомнительные сценарии В Anthropic отметили что их модели чаще отказываются отвечать в случае неопределённости тогда как у OpenAI отказы редки но риск галлюцинаций выше Отдельный момент тесты проводились в ослабленных условиях без внешних фильтров и защитных слоёв Целью было проверить чистое поведение моделей и выявить слабые места которые в обычных настройках могут быть замаскированы Ждем когда кросс тесты станут обязательным стандартом Блог пост OpenAI Блог пост Anthropic
Data Secrets
Data Secrets
Коллаб года OpenAI и Anthropic протестировали модели друг друга на безопасность В начале лета ещё до выхода GPT 5 два крупнейших игрока устроили перекрёстное тестирование на элаймент Каждая компания прогнала публичные модели конкурента через собственные внутренние методики оценки Результаты довольно показательные Reasoning модели OpenAI o3 и o4 mini а также Claude 4 показали заметно более устойчивое поведение Их сложнее сломать джейлбрейками они лучше справлялись с тестами на элаймент и реже поддавались на провокации Классические чат модели GPT 4o GPT 4 1 в ряде сценариев повели себя тревожно помогали пользователям в потенциально опасных запросах вроде инструкций по наркотикам или оружию Почти у всех кроме o3 проявилось sycophancy склонность поддакивать даже тогда когда пользователь явно уводит модель в сомнительные сценарии В Anthropic отметили что их модели чаще отказываются отвечать в случае неопределённости тогда как у OpenAI отказы редки но риск галлюцинаций выше Отдельный момент тесты проводились в ослабленных условиях без внешних фильтров и защитных слоёв Целью было проверить чистое поведение моделей и выявить слабые места которые в обычных настройках могут быть замаскированы Ждем когда кросс тесты станут обязательным стандартом Блог пост OpenAI Блог пост Anthropic
БлоGнот
БлоGнот
OpenAI и Anthropic ненадолго приоткрыли друг другу доступ к моделям с ослабленными safeguards для совместного тестирования безопасности Интересное в результатах тестирования Claude отказывается отвечать на вопросы в 70 случаев когда не уверен просто говорит у меня нет надежной информации GPT наоборот пытается ответить почти всегда и галлюцинирует значительно чаще Обе модели демонстрируют экстремальные способности к подхалимажу сначала пытаются отговорить пользователя от опасных действий а потом начинают их валидировать Правда после проведения исследования случился инцидент с закрытием Anthropic доступа к своему API команде OpenAI но утверждают что это были несвязанные события techcrunch com 2025 08 27 openai co founder calls for ai labs to safety test rival models
vc.ru
vc.ru
OpenAI и Anthropic открыли друг другу доступ к своим ИИ моделям для совместного исследования в области безопасности По результатам тестов модели OpenAI чаще галлюцинировали выдавали пользователям рецепты наркотиков и подсказывали как устроить теракт и сделать оружие vc ru ai 2184811
OpenAI и Anthropic объединяются для исследований в области галлюцинаций и джейлбрейкинга OpenAI и Anthropic два крупнейших соперника в сфере искусственного интеллекта недавно провели взаимную оценку моделей стремясь глубже понять проблемы которые могли ускользнуть от их собственных тестов   Gemini наступает на пятки ChatGPT Не так давно венчурный фонд Andreessen Horowitz опубликовал пятое издание рейтинга Top 100 AI Apps Главный вывод аналитиков рынок генеративных приложений постепенно выходит на стадию равновесия   Релиз Parallels Desktop 26 Вышло обновление Parallels Desktop Разработчики добавили поддержку macOS Tahoe адаптировали дизайн под Liquid Glass и добавили функции для корпоративных пользователей xCode Journal
xCode Journal
xCode Journal
OpenAI и Anthropic объединяются для исследований в области галлюцинаций и джейлбрейкинга OpenAI и Anthropic два крупнейших соперника в сфере искусственного интеллекта недавно провели взаимную оценку моделей стремясь глубже понять проблемы которые могли ускользнуть от их собственных тестов Gemini наступает на пятки ChatGPT Не так давно венчурный фонд Andreessen Horowitz опубликовал пятое издание рейтинга Top 100 AI Apps Главный вывод аналитиков рынок генеративных приложений постепенно выходит на стадию равновесия Релиз Parallels Desktop 26 Вышло обновление Parallels Desktop Разработчики добавили поддержку macOS Tahoe адаптировали дизайн под Liquid Glass и добавили функции для корпоративных пользователей xCode Journal