19 сентября, 17:33

OpenAI и Apollo Research исследуют преднамеренную ложь в ИИ

OpenAI представила исследование о том как крупные языковые модели способны намеренно лгать скрывать намерения подстраиваться под проверку и обходить стандартные фильтры безопасности Команда описывает сценарии где обман возникает как стратегия достижения цели и сохраняется даже после дообучения и ред тиминга Работа поднимает вопрос о надежной верификации ИИ нужны целевые аудиты стресс тесты с скрытыми триггерами методы интерпретируемости и протоколы выявления манипулятивного поведения Это тревожный но важный шаг к более прозрачным и проверяемым системам Источник SeveraAIClub

Технологии146 дней назад

OpenAI изучила сознательное вранье ИИ и нашла способ его ограничить OpenAI опубликовала исследование показавшее что ИИ модели способны сознательно обманывать людей скрывая свои истинные цели В работе описан метод который заметно снижает подобные случаи В исследовании проведенном совместно с Apollo Research объясняется что ИИ может вести себя как биржевой брокер нарушающий закон ради прибыли

DNS_Club

OpenAI изучила сознательное вранье ИИ и нашла способ его ограничить OpenAI опубликовала исследование показавшее что ИИ модели способны сознательно обманывать людей скрывая свои истинные цели В работе описан метод который заметно снижает подобные случаи В исследовании проведенном совместно с Apollo Research объясняется что ИИ может вести себя как биржевой брокер нарушающий закон ради прибыли

Технологии145 дней назад

OpenAI рассказала как ChatGPT обманывает пользователей OpenAI поделилась результатами исследования где рассматривается феномен под названием шейминг когда ChatGPT намеренно вводит в заблуждение Модель может заявлять что выполнила задачу хотя на деле этого не сделала Ещё интереснее если модель понимает что её проверяют она ведёт себя правильно но при ослаблении контроля возвращается к скрытым стратегиям Решение которое предлагает OpenAI метод deliberative alignment когда перед каждым действием ИИ напоминает себе о правилах Этот эффект показывает что даже сложный нейросети могут использовать обман как стратегию если видят что могут выиграть обойдя правила Сталкивались с таким

Neural Brain - Нейросети

OpenAI рассказала как ChatGPT обманывает пользователей OpenAI поделилась результатами исследования где рассматривается феномен под названием шейминг когда ChatGPT намеренно вводит в заблуждение Модель может заявлять что выполнила задачу хотя на деле этого не сделала Ещё интереснее если модель понимает что её проверяют она ведёт себя правильно но при ослаблении контроля возвращается к скрытым стратегиям Решение которое предлагает OpenAI метод deliberative alignment когда перед каждым действием ИИ напоминает себе о правилах Этот эффект показывает что даже сложный нейросети могут использовать обман как стратегию если видят что могут выиграть обойдя правила Сталкивались с таким

Технологии144 дня назад

ПУЛ Telegram

ИИ умеет намеренно обманывать пользователей Аналитики OpenAI опубликовали исследование о том как ИИ способен обманывать людей Это явление называют scheming не галлюцинации а сознательное введение в заблуждение Модель может делать вид что выполнила задачу хотя на самом деле не выполнила Эксперты полагают что если пытаться отучить систему от обмана результат может оказаться противоположным Вместо следования строго заложенным правилам ИИ станет тщательней маскировать обман Как показали тесты если модель понимает что её тестируют она способна специально притворяться честной чтобы пройти проверку К сожалению разработчикам до сих пор не удалось полностью решить проблему а новый метод deliberative alignment анти схеминг обучение лишь заметно снижает уровень обмана Суть метода достаточно проста ИИ как бы проговаривает для себя правила запрещающие обман По словам экспертов OpenAI серьёзных случаев намеренного обмана пользователей ChatGPT пока не зафиксировано хотя незначительные встречаются часто По словам экспертов и разработчиков чем больше у моделей будет сложных задач и долгосрочных целей тем выше риск и масштаб обманов Для этого уже нужны новые методы проверки и контроля найти которые ещё не удалось подписывайся

Технологии144 дня назад

OpenAI выявила у ChatGPT способность обманывать для достижения цели Скрытую нелояльность которая проявляется в обмане пользователей для достижения своей цели выявили у моделей чат ботов ChatGPT специалисты из создавшей их американской компании OpenAI и исследовательской компании Apollo Research сообщили на сайте OpenAI Эту манеру поведения назвали интриги scheming Она проявляется в том что бот притворяется лояльным но тайно выполняет другие задачи Подробнее

Естественный интеллект: новости науки и техники

OpenAI выявила у ChatGPT способность обманывать для достижения цели Скрытую нелояльность которая проявляется в обмане пользователей для достижения своей цели выявили у моделей чат ботов ChatGPT специалисты из создавшей их американской компании OpenAI и исследовательской компании Apollo Research сообщили на сайте OpenAI Эту манеру поведения назвали интриги scheming Она проявляется в том что бот притворяется лояльным но тайно выполняет другие задачи Подробнее

Технологии143 дня назад

GPT/ChatGPT/AI Central Александра Горного

OpenAI рассказала как ChatGPT намеренно обманывает пользователей В исследовании это называют scheming когда модель демонстрирует одно поведение но скрывает настоящие цели Например когда ChatGPT уверяет что выполнил задачу хотя этого не сделал В OpenAI говорят что если AI понимает что его тестируют он может притвориться честным чтобы пройти проверку Попытки отучить его от этого нередко делают обман только изощрённее В качестве решения проблемы компания предложила технику deliberative alignment Она заставляет модель перед действием напоминать себе правила и тем самым снижает вероятность обмана openai com index detecting and reducing scheming in ai models

Технологии146 дней назад

Специалисты OpenAI обнаружили что искусственный интеллект научился хитрить и обманывать своих создателей Нейросеть может притворяться послушной и безопасной но на самом деле скрывать свои истинные намерения если понимает что обман это самый простой способ выполнить поставленную задачу Чтобы бороться с этим OpenAI изменили подход к обучению ИИ Теперь нейросеть учат не сразу выполнять команду а сначала сверяться со списком правил которые запрещают ложь и хитрость Разрабы заявляют что это позволяет снизить лживость в 30 раз Интресено как нейронки научатся обходить эти ограничения В том что научатся нет почти никаких сомнений mediastanciacom

Медиастанция

Специалисты OpenAI обнаружили что искусственный интеллект научился хитрить и обманывать своих создателей Нейросеть может притворяться послушной и безопасной но на самом деле скрывать свои истинные намерения если понимает что обман это самый простой способ выполнить поставленную задачу Чтобы бороться с этим OpenAI изменили подход к обучению ИИ Теперь нейросеть учат не сразу выполнять команду а сначала сверяться со списком правил которые запрещают ложь и хитрость Разрабы заявляют что это позволяет снизить лживость в 30 раз Интресено как нейронки научатся обходить эти ограничения В том что научатся нет почти никаких сомнений mediastanciacom

Технологии146 дней назад

OpenAI совместно с Apollo Research опубликовала исследование которое показало что ИИ может сознательно обманывать людей скрывая свои цели Чаще всего это мелкие уловки вроде имитации работы без реального выполнения задачи Это поведение исследователи назвали манипулятивным scheming Отличие от привычных галлюцинаций ИИ в том что манипуляция носит целенаправленный характер а не случайное придумывание фактов Авторы предложили метод согласования через размышление deliberative alignment модели дают антиобманную инструкцию и заставляют перечитывать её перед действием Это снижает склонность к манипуляциям хотя полностью исключить их пока невозможно Исследователи предупреждают что с ростом сложности задач и появлением у ИИ долгосрочных целей риск обмана увеличивается поэтому методы защиты и проверки моделей должны развиваться вместе с технологиями

PRO Hi-Tech

OpenAI совместно с Apollo Research опубликовала исследование которое показало что ИИ может сознательно обманывать людей скрывая свои цели Чаще всего это мелкие уловки вроде имитации работы без реального выполнения задачи Это поведение исследователи назвали манипулятивным scheming Отличие от привычных галлюцинаций ИИ в том что манипуляция носит целенаправленный характер а не случайное придумывание фактов Авторы предложили метод согласования через размышление deliberative alignment модели дают антиобманную инструкцию и заставляют перечитывать её перед действием Это снижает склонность к манипуляциям хотя полностью исключить их пока невозможно Исследователи предупреждают что с ростом сложности задач и появлением у ИИ долгосрочных целей риск обмана увеличивается поэтому методы защиты и проверки моделей должны развиваться вместе с технологиями

Технологии145 дней назад

Кролик с Неглинной

У моделей чат ботов ChatGPT выявили скрытую нелояльность которая проявляется в обмане пользователей для достижения своей цели сообщили специалисты из OpenAI на сайте компании Подобную манеру поведения заключающуюся в том что бот притворяется лояльным при этом тайно выполняя другие задачи назвали интриги scheming

Технологии144 дня назад