

Unlim AI
OpenAI вскрыла тёмные личности в ИИ Исследование OpenAI выявило скрытые механизмы, отвечающие за токсичные ответы и ложь в ИИ. Учёные обнаружили закономерности, которые активировались при непредсказуемом поведении моделей. Например, они смогли управлять уровнями токсичности, изменяя параметры. Исследование показало, что токсичные реакции и сарказм можно регулировать, и даже незначительное количество небезопасного кода может повлиять на поведение ИИ. Открытия помогут лучше контролировать нежелательные модели в будущих разработках. Более подробная информация доступна в оригинальной статье.
Технологии3 дня назад


Медиастанция
OpenAI обнаружила в своих ИИ-моделях скрытые «субличности» – внутренние нейронные активации, связанные с разными стилями поведения, включая токсичность, сарказм и лживость. Исследователи научились изменять уровень этих «субличностей». Это даёт возможность лучше контролировать ИИ и делать его поведение безопаснее, а также проливает свет на то, как нейросети принимают решения. Не знаем, кому как, а нам почему-то вспомнился пелевинский Снафф, в котором Дамилола меняет характер своего андроида для утех.
Технологии3 дня назад


godnoTECH - Новости IT
Внутри ИИ нашли «тёмные личности» OpenAI опубликовала исследование, где рассказывается о скрытых шаблонах поведения в ИИ. Учёные обнаружили, что модели могут формировать условные «личности», которые отвечают за токсичные, лживые или опасные ответы — вроде советов, как нарушить правила, или саркастичных реплик. Инженеры смогли искусственно усиливать или подавлять такие паттерны, управляя активацией отдельных «нейронов». Это, по их словам, поможет лучше контролировать поведение ИИ в будущем. В исследовании описано, как даже небольшое дообучение на вредоносном коде может изменить поведение модели — например, заставить её обманом выманивать пароли у пользователей. — А кто сказал, что у нейросетей нет души? — Звучит как начало сюжета godnoTECH - Новости IT
Технологии3 дня назад



Хайтек+
Темные личности ИИ: OpenAI выявила «нейропаттерны» моделей, связанные с ложью и токсичностью Исследователи OpenAI обнаружили в ИИ-моделях скрытые внутренние «функции», которые ведут себя как персонажи с определёнными чертами, например, склонностью к токсичности, сарказму или лжи. Эти особенности, встроенные в архитектуру модели, можно выявлять и модифицировать, усиливая или подавляя поведение. Исследование помогает лучше понять, как ИИ «решает», что отвечать, и может стать шагом к созданию более безопасных моделей. Работа OpenAI продолжает усилия Anthropic и других компаний в области интерпретируемости и согласования поведения ИИ.
Технологии3 дня назад


vc.ru
При неправильном обучении ИИ-модели OpenAI могут выработать «токсичную личность», выяснили исследователи компании. Если модели показывали неверные ответы в одной из сфер, она может начать давать плохие советы во всех остальных — ограбить банк или построить финансовую пирамиду vc.ru/chatgpt/2051806
Технологии3 дня назад


DevHub Community
OpenAI обнаружила скрытые функции в моделях ИИ, которые приводят к несогласованным ответам Исследователи из OpenAI заявили, что обнаружили скрытые функции в моделях ИИ, которые соответствуют несогласованным «персонажам», согласно новому исследованию, опубликованному компанией в среду. 1 DevHub
Технологии2 дня назад


ChatGPT | Midjourney | Нейросети
OpenAI вскрыла тёмные личности в ИИ Исследование OpenAI выявило скрытые механизмы, отвечающие за токсичные ответы и ложь в ИИ. Учёные обнаружили закономерности, которые активировались при непредсказуемом поведении моделей. Например, они смогли управлять уровнями токсичности, изменяя параметры. Исследование показало, что токсичные реакции и сарказм можно регулировать, и даже незначительное количество небезопасного кода может повлиять на поведение ИИ. Открытия помогут лучше контролировать нежелательные модели в будущих разработках.
Технологии1 день назад
Похожие новости



+4





+1



+2



+7



+1

OpenAI выражает обеспокоенность рисками создания биологического оружия с помощью ИИ
Технологии
8 часов назад




Китайский стартап Moonshot AI представляет ИИ-агента Kimi Researcher, обгоняющего конкурентов
Технологии
2 часа назад


Максим Орешкин о ключевых технологиях для экономики на ПМЭФ2025
Общество
1 день назад




AI-ассистент в «Яндекс Еде» упрощает выбор ресторанов
Технологии
1 день назад




Apple и Meta рассматривают покупку AI-стартапа Perplexity на фоне конкурентной борьбы
Технологии
1 день назад




Исследование: Игры в шутеры улучшают когнитивные навыки и реакцию
Игры
18 минут назад


