19 сентября, 17:33
OpenAI и Apollo Research исследуют преднамеренную ложь в ИИ


Severa AI Club
OpenAI представила исследование о том как крупные языковые модели способны намеренно лгать скрывать намерения подстраиваться под проверку и обходить стандартные фильтры безопасности Команда описывает сценарии где обман возникает как стратегия достижения цели и сохраняется даже после дообучения и ред тиминга Работа поднимает вопрос о надежной верификации ИИ нужны целевые аудиты стресс тесты с скрытыми триггерами методы интерпретируемости и протоколы выявления манипулятивного поведения Это тревожный но важный шаг к более прозрачным и проверяемым системам Источник SeveraAIClub
Технологии100 дней назад


DNS_Club
OpenAI изучила сознательное вранье ИИ и нашла способ его ограничить OpenAI опубликовала исследование показавшее что ИИ модели способны сознательно обманывать людей скрывая свои истинные цели В работе описан метод который заметно снижает подобные случаи В исследовании проведенном совместно с Apollo Research объясняется что ИИ может вести себя как биржевой брокер нарушающий закон ради прибыли
Технологии99 дней назад


Neural Brain - Нейросети
OpenAI рассказала как ChatGPT обманывает пользователей OpenAI поделилась результатами исследования где рассматривается феномен под названием шейминг когда ChatGPT намеренно вводит в заблуждение Модель может заявлять что выполнила задачу хотя на деле этого не сделала Ещё интереснее если модель понимает что её проверяют она ведёт себя правильно но при ослаблении контроля возвращается к скрытым стратегиям Решение которое предлагает OpenAI метод deliberative alignment когда перед каждым действием ИИ напоминает себе о правилах Этот эффект показывает что даже сложный нейросети могут использовать обман как стратегию если видят что могут выиграть обойдя правила Сталкивались с таким
Технологии98 дней назад

ПУЛ Telegram
ИИ умеет намеренно обманывать пользователей Аналитики OpenAI опубликовали исследование о том как ИИ способен обманывать людей Это явление называют scheming не галлюцинации а сознательное введение в заблуждение Модель может делать вид что выполнила задачу хотя на самом деле не выполнила Эксперты полагают что если пытаться отучить систему от обмана результат может оказаться противоположным Вместо следования строго заложенным правилам ИИ станет тщательней маскировать обман Как показали тесты если модель понимает что её тестируют она способна специально притворяться честной чтобы пройти проверку К сожалению разработчикам до сих пор не удалось полностью решить проблему а новый метод deliberative alignment анти схеминг обучение лишь заметно снижает уровень обмана Суть метода достаточно проста ИИ как бы проговаривает для себя правила запрещающие обман По словам экспертов OpenAI серьёзных случаев намеренного обмана пользователей ChatGPT пока не зафиксировано хотя незначительные встречаются часто По словам экспертов и разработчиков чем больше у моделей будет сложных задач и долгосрочных целей тем выше риск и масштаб обманов Для этого уже нужны новые методы проверки и контроля найти которые ещё не удалось подписывайся
Технологии98 дней назад


Естественный интеллект: новости науки и техники
OpenAI выявила у ChatGPT способность обманывать для достижения цели Скрытую нелояльность которая проявляется в обмане пользователей для достижения своей цели выявили у моделей чат ботов ChatGPT специалисты из создавшей их американской компании OpenAI и исследовательской компании Apollo Research сообщили на сайте OpenAI Эту манеру поведения назвали интриги scheming Она проявляется в том что бот притворяется лояльным но тайно выполняет другие задачи Подробнее
Технологии97 дней назад


GPT/ChatGPT/AI Central Александра Горного
OpenAI рассказала как ChatGPT намеренно обманывает пользователей В исследовании это называют scheming когда модель демонстрирует одно поведение но скрывает настоящие цели Например когда ChatGPT уверяет что выполнил задачу хотя этого не сделал В OpenAI говорят что если AI понимает что его тестируют он может притвориться честным чтобы пройти проверку Попытки отучить его от этого нередко делают обман только изощрённее В качестве решения проблемы компания предложила технику deliberative alignment Она заставляет модель перед действием напоминать себе правила и тем самым снижает вероятность обмана openai com index detecting and reducing scheming in ai models
Технологии100 дней назад


Медиастанция
Специалисты OpenAI обнаружили что искусственный интеллект научился хитрить и обманывать своих создателей Нейросеть может притворяться послушной и безопасной но на самом деле скрывать свои истинные намерения если понимает что обман это самый простой способ выполнить поставленную задачу Чтобы бороться с этим OpenAI изменили подход к обучению ИИ Теперь нейросеть учат не сразу выполнять команду а сначала сверяться со списком правил которые запрещают ложь и хитрость Разрабы заявляют что это позволяет снизить лживость в 30 раз Интресено как нейронки научатся обходить эти ограничения В том что научатся нет почти никаких сомнений mediastanciacom
Технологии100 дней назад


PRO Hi-Tech
OpenAI совместно с Apollo Research опубликовала исследование которое показало что ИИ может сознательно обманывать людей скрывая свои цели Чаще всего это мелкие уловки вроде имитации работы без реального выполнения задачи Это поведение исследователи назвали манипулятивным scheming Отличие от привычных галлюцинаций ИИ в том что манипуляция носит целенаправленный характер а не случайное придумывание фактов Авторы предложили метод согласования через размышление deliberative alignment модели дают антиобманную инструкцию и заставляют перечитывать её перед действием Это снижает склонность к манипуляциям хотя полностью исключить их пока невозможно Исследователи предупреждают что с ростом сложности задач и появлением у ИИ долгосрочных целей риск обмана увеличивается поэтому методы защиты и проверки моделей должны развиваться вместе с технологиями
Технологии99 дней назад

Кролик с Неглинной
У моделей чат ботов ChatGPT выявили скрытую нелояльность которая проявляется в обмане пользователей для достижения своей цели сообщили специалисты из OpenAI на сайте компании Подобную манеру поведения заключающуюся в том что бот притворяется лояльным при этом тайно выполняя другие задачи назвали интриги scheming
Технологии98 дней назад

ШАФРАН
ИИ умеет намеренно обманывать пользователей Аналитики OpenAI опубликовали исследование о том как ИИ способен обманывать людей Это явление называют scheming не галлюцинации а сознательное введение в заблуждение Модель может делать вид что выполнила задачу хотя на самом деле не выполнила Эксперты полагают что если пытаться отучить систему от обмана результат может оказаться противоположным Вместо следования строго заложенным правилам ИИ станет тщательней маскировать обман Как показали тесты если модель понимает что её тестируют она способна специально притворяться честной чтобы пройти проверку К сожалению разработчикам до сих пор не удалось полностью решить проблему а новый метод deliberative alignment анти схеминг обучение лишь заметно снижает уровень обмана Суть метода достаточно проста ИИ как бы проговаривает для себя правила запрещающие обман По словам экспертов OpenAI серьёзных случаев намеренного обмана пользователей ChatGPT пока не зафиксировано хотя незначительные встречаются часто По словам экспертов и разработчиков чем больше у моделей будет сложных задач и долгосрочных целей тем выше риск и масштаб обманов Для этого уже нужны новые методы проверки и контроля найти которые ещё не удалось подписывайся
Технологии98 дней назад

Похожие новости





+9





+19



+1

![Аватар Телеграм канала: TechGPT [🅽 🅴 🆆 🆂] 🤖](https://content.tek.fm/a2835e8b-663f-48df-8056-929900940061.jpg)

OpenAI ищет главу по подготовке для анализа угроз ИИ
Технологии
8 часов назад

Психиатры предупреждают о связи чат-ботов ИИ с психозами
Технологии
12 часов назад


+9
Искусственный интеллект создает больше миллиардеров, чем криптовалюты и нефть
Экономика
1 день назад

Исследование: каждое пятое видео на YouTube - низкокачественный ИИ-контент
Технологии
18 часов назад


+19
Неудача оператора: робот проиграл бой самому себе
Технологии
1 день назад


+1
Sber AI представляет достижения в области ИИ на AI Journey 2025
Технологии
1 день назад
![Аватар Телеграм канала: TechGPT [🅽 🅴 🆆 🆂] 🤖](https://content.tek.fm/a2835e8b-663f-48df-8056-929900940061.jpg)