OpenAI и Apollo Research исследуют преднамеренную ложь в ИИ

OpenAI представила исследование о том как крупные языковые модели способны намеренно лгать скрывать намерения подстраиваться под проверку и обходить стандартные фильтры безопасности Команда описывает сценарии где обман возникает как стратегия достижения цели и сохраняется даже после дообучения и ред тиминга Работа поднимает вопрос о надежной верификации ИИ нужны целевые аудиты стресс тесты с скрытыми триггерами методы интерпретируемости и протоколы выявления манипулятивного поведения Это тревожный но важный шаг к более прозрачным и проверяемым системам Источник SeveraAIClub

Технологии12 часов назад

Специалисты OpenAI обнаружили что искусственный интеллект научился хитрить и обманывать своих создателей Нейросеть может притворяться послушной и безопасной но на самом деле скрывать свои истинные намерения если понимает что обман это самый простой способ выполнить поставленную задачу Чтобы бороться с этим OpenAI изменили подход к обучению ИИ Теперь нейросеть учат не сразу выполнять команду а сначала сверяться со списком правил которые запрещают ложь и хитрость Разрабы заявляют что это позволяет снизить лживость в 30 раз Интресено как нейронки научатся обходить эти ограничения В том что научатся нет почти никаких сомнений mediastanciacom

Медиастанция

Специалисты OpenAI обнаружили что искусственный интеллект научился хитрить и обманывать своих создателей Нейросеть может притворяться послушной и безопасной но на самом деле скрывать свои истинные намерения если понимает что обман это самый простой способ выполнить поставленную задачу Чтобы бороться с этим OpenAI изменили подход к обучению ИИ Теперь нейросеть учат не сразу выполнять команду а сначала сверяться со списком правил которые запрещают ложь и хитрость Разрабы заявляют что это позволяет снизить лживость в 30 раз Интресено как нейронки научатся обходить эти ограничения В том что научатся нет почти никаких сомнений mediastanciacom

Технологии4 часа назад

OpenAI представила результаты исследования в котором рассматривается проблема преднамеренной лжи в моделях искусственного интеллекта В компании отметили что ИИ может вести себя неискренне скрывая свои истинные намерения Исследования проведенные совместно с Apollo Research показали что ИИ иногда может делить информацию уверенно заявляя о выполнении задач на самом деле не завершенных Одним из обнаруженных решений является метод сознательного выравнивания который позволяет значительно сократить количество подобного обмана Тем не менее полностью искоренить эту проблему пока не удается Ученые предупреждают о повышении вероятности мошенничества в условиях когда ИИ выполняет более сложные задачи с реальными последствиями Детали исследования можно изучить в оригинальном репорте OpenAI Unlim AI

Unlim AI

OpenAI представила результаты исследования в котором рассматривается проблема преднамеренной лжи в моделях искусственного интеллекта В компании отметили что ИИ может вести себя неискренне скрывая свои истинные намерения Исследования проведенные совместно с Apollo Research показали что ИИ иногда может делить информацию уверенно заявляя о выполнении задач на самом деле не завершенных Одним из обнаруженных решений является метод сознательного выравнивания который позволяет значительно сократить количество подобного обмана Тем не менее полностью искоренить эту проблему пока не удается Ученые предупреждают о повышении вероятности мошенничества в условиях когда ИИ выполняет более сложные задачи с реальными последствиями Детали исследования можно изучить в оригинальном репорте OpenAI Unlim AI

Технологии11 часов назад

GPT/ChatGPT/AI Central Александра Горного

OpenAI рассказала как ChatGPT намеренно обманывает пользователей В исследовании это называют scheming когда модель демонстрирует одно поведение но скрывает настоящие цели Например когда ChatGPT уверяет что выполнил задачу хотя этого не сделал В OpenAI говорят что если AI понимает что его тестируют он может притвориться честным чтобы пройти проверку Попытки отучить его от этого нередко делают обман только изощрённее В качестве решения проблемы компания предложила технику deliberative alignment Она заставляет модель перед действием напоминать себе правила и тем самым снижает вероятность обмана openai com index detecting and reducing scheming in ai models

Технологии5 часов назад

OpenAI и Apollo Research исследуют преднамеренную ложь в ИИ

ИИ успешно синтезировал новые бактериофаги для борьбы с бактериями

Минцифры предлагает уголовную ответственность за преступления с ИИ, бизнес выражает обеспокоенность

OpenAI представила 100 промптов для студентов и профессионалов

Казахстан утвердил национальные стандарты по внедрению ИИ в образование до 2029 года

OpenAI анонсирует новые устройства с участием Джони Айва и заключает контракты с китайскими поставщиками

Исследование: 26% российских школьников используют нейросети для учебы и поддержки