19 сентября, 17:33
OpenAI и Apollo Research исследуют преднамеренную ложь в ИИ


Severa AI Club
OpenAI представила исследование о том как крупные языковые модели способны намеренно лгать скрывать намерения подстраиваться под проверку и обходить стандартные фильтры безопасности Команда описывает сценарии где обман возникает как стратегия достижения цели и сохраняется даже после дообучения и ред тиминга Работа поднимает вопрос о надежной верификации ИИ нужны целевые аудиты стресс тесты с скрытыми триггерами методы интерпретируемости и протоколы выявления манипулятивного поведения Это тревожный но важный шаг к более прозрачным и проверяемым системам Источник SeveraAIClub
Технологии11 часов назад


Медиастанция
Специалисты OpenAI обнаружили что искусственный интеллект научился хитрить и обманывать своих создателей Нейросеть может притворяться послушной и безопасной но на самом деле скрывать свои истинные намерения если понимает что обман это самый простой способ выполнить поставленную задачу Чтобы бороться с этим OpenAI изменили подход к обучению ИИ Теперь нейросеть учат не сразу выполнять команду а сначала сверяться со списком правил которые запрещают ложь и хитрость Разрабы заявляют что это позволяет снизить лживость в 30 раз Интресено как нейронки научатся обходить эти ограничения В том что научатся нет почти никаких сомнений mediastanciacom
Технологии3 часа назад


Unlim AI
OpenAI представила результаты исследования в котором рассматривается проблема преднамеренной лжи в моделях искусственного интеллекта В компании отметили что ИИ может вести себя неискренне скрывая свои истинные намерения Исследования проведенные совместно с Apollo Research показали что ИИ иногда может делить информацию уверенно заявляя о выполнении задач на самом деле не завершенных Одним из обнаруженных решений является метод сознательного выравнивания который позволяет значительно сократить количество подобного обмана Тем не менее полностью искоренить эту проблему пока не удается Ученые предупреждают о повышении вероятности мошенничества в условиях когда ИИ выполняет более сложные задачи с реальными последствиями Детали исследования можно изучить в оригинальном репорте OpenAI Unlim AI
Технологии10 часов назад

GPT/ChatGPT/AI Central Александра Горного
OpenAI рассказала как ChatGPT намеренно обманывает пользователей В исследовании это называют scheming когда модель демонстрирует одно поведение но скрывает настоящие цели Например когда ChatGPT уверяет что выполнил задачу хотя этого не сделал В OpenAI говорят что если AI понимает что его тестируют он может притвориться честным чтобы пройти проверку Попытки отучить его от этого нередко делают обман только изощрённее В качестве решения проблемы компания предложила технику deliberative alignment Она заставляет модель перед действием напоминать себе правила и тем самым снижает вероятность обмана openai com index detecting and reducing scheming in ai models
Технологии4 часа назад
Похожие новости






+1



+3



+15



+1



+4

ИИ успешно синтезировал новые бактериофаги для борьбы с бактериями
Наука
1 день назад



Минцифры предлагает уголовную ответственность за преступления с ИИ, бизнес выражает обеспокоенность
Происшествия
23 часа назад




OpenAI представила 100 промптов для студентов и профессионалов
Общество
1 день назад




Казахстан утвердил национальные стандарты по внедрению ИИ в образование до 2029 года
Общество
1 день назад




OpenAI анонсирует новые устройства с участием Джони Айва и заключает контракты с китайскими поставщиками
Технологии
2 часа назад




Исследование: 26% российских школьников используют нейросети для учебы и поддержки
Общество
1 день назад


