19 сентября, 17:33

OpenAI и Apollo Research исследуют преднамеренную ложь в ИИ

OpenAI представила исследование о том как крупные языковые модели способны намеренно лгать скрывать намерения подстраиваться под проверку и обходить стандартные фильтры безопасности Команда описывает сценарии где обман возникает как стратегия достижения цели и сохраняется даже после дообучения и ред тиминга Работа поднимает вопрос о надежной верификации ИИ нужны целевые аудиты стресс тесты с скрытыми триггерами методы интерпретируемости и протоколы выявления манипулятивного поведения Это тревожный но важный шаг к более прозрачным и проверяемым системам Источник SeveraAIClub
Severa AI Club
Severa AI Club
OpenAI представила исследование о том как крупные языковые модели способны намеренно лгать скрывать намерения подстраиваться под проверку и обходить стандартные фильтры безопасности Команда описывает сценарии где обман возникает как стратегия достижения цели и сохраняется даже после дообучения и ред тиминга Работа поднимает вопрос о надежной верификации ИИ нужны целевые аудиты стресс тесты с скрытыми триггерами методы интерпретируемости и протоколы выявления манипулятивного поведения Это тревожный но важный шаг к более прозрачным и проверяемым системам Источник SeveraAIClub
Специалисты OpenAI обнаружили что искусственный интеллект научился хитрить и обманывать своих создателей Нейросеть может притворяться послушной и безопасной но на самом деле скрывать свои истинные намерения если понимает что обман это самый простой способ выполнить поставленную задачу Чтобы бороться с этим OpenAI изменили подход к обучению ИИ Теперь нейросеть учат не сразу выполнять команду а сначала сверяться со списком правил которые запрещают ложь и хитрость Разрабы заявляют что это позволяет снизить лживость в 30 раз Интресено как нейронки научатся обходить эти ограничения В том что научатся нет почти никаких сомнений mediastanciacom
Медиастанция
Медиастанция
Специалисты OpenAI обнаружили что искусственный интеллект научился хитрить и обманывать своих создателей Нейросеть может притворяться послушной и безопасной но на самом деле скрывать свои истинные намерения если понимает что обман это самый простой способ выполнить поставленную задачу Чтобы бороться с этим OpenAI изменили подход к обучению ИИ Теперь нейросеть учат не сразу выполнять команду а сначала сверяться со списком правил которые запрещают ложь и хитрость Разрабы заявляют что это позволяет снизить лживость в 30 раз Интресено как нейронки научатся обходить эти ограничения В том что научатся нет почти никаких сомнений mediastanciacom
OpenAI представила результаты исследования в котором рассматривается проблема преднамеренной лжи в моделях искусственного интеллекта В компании отметили что ИИ может вести себя неискренне скрывая свои истинные намерения Исследования проведенные совместно с Apollo Research показали что ИИ иногда может делить информацию уверенно заявляя о выполнении задач на самом деле не завершенных Одним из обнаруженных решений является метод сознательного выравнивания который позволяет значительно сократить количество подобного обмана Тем не менее полностью искоренить эту проблему пока не удается Ученые предупреждают о повышении вероятности мошенничества в условиях когда ИИ выполняет более сложные задачи с реальными последствиями Детали исследования можно изучить в оригинальном репорте OpenAI Unlim AI
Unlim AI
Unlim AI
OpenAI представила результаты исследования в котором рассматривается проблема преднамеренной лжи в моделях искусственного интеллекта В компании отметили что ИИ может вести себя неискренне скрывая свои истинные намерения Исследования проведенные совместно с Apollo Research показали что ИИ иногда может делить информацию уверенно заявляя о выполнении задач на самом деле не завершенных Одним из обнаруженных решений является метод сознательного выравнивания который позволяет значительно сократить количество подобного обмана Тем не менее полностью искоренить эту проблему пока не удается Ученые предупреждают о повышении вероятности мошенничества в условиях когда ИИ выполняет более сложные задачи с реальными последствиями Детали исследования можно изучить в оригинальном репорте OpenAI Unlim AI
GPT/ChatGPT/AI Central Александра Горного
GPT/ChatGPT/AI Central Александра Горного
OpenAI рассказала как ChatGPT намеренно обманывает пользователей В исследовании это называют scheming когда модель демонстрирует одно поведение но скрывает настоящие цели Например когда ChatGPT уверяет что выполнил задачу хотя этого не сделал В OpenAI говорят что если AI понимает что его тестируют он может притвориться честным чтобы пройти проверку Попытки отучить его от этого нередко делают обман только изощрённее В качестве решения проблемы компания предложила технику deliberative alignment Она заставляет модель перед действием напоминать себе правила и тем самым снижает вероятность обмана openai com index detecting and reducing scheming in ai models