Хайтек+
Темные личности ИИ: OpenAI выявила «нейропаттерны» моделей, связанные с ложью и токсичностью Исследователи OpenAI обнаружили в ИИ-моделях скрытые внутренние «функции», которые ведут себя как персонажи с определёнными чертами, например, склонностью к токсичности, сарказму или лжи. Эти особенности, встроенные в архитектуру модели, можно выявлять и модифицировать, усиливая или подавляя поведение. Исследование помогает лучше понять, как ИИ «решает», что отвечать, и может стать шагом к созданию более безопасных моделей. Работа OpenAI продолжает усилия Anthropic и других компаний в области интерпретируемости и согласования поведения ИИ.
godnoTECH - Новости IT
Внутри ИИ нашли «тёмные личности» OpenAI опубликовала исследование, где рассказывается о скрытых шаблонах поведения в ИИ. Учёные обнаружили, что модели могут формировать условные «личности», которые отвечают за токсичные, лживые или опасные ответы — вроде советов, как нарушить правила, или саркастичных реплик. Инженеры смогли искусственно усиливать или подавлять такие паттерны, управляя активацией отдельных «нейронов». Это, по их словам, поможет лучше контролировать поведение ИИ в будущем. В исследовании описано, как даже небольшое дообучение на вредоносном коде может изменить поведение модели — например, заставить её обманом выманивать пароли у пользователей. — А кто сказал, что у нейросетей нет души? — Звучит как начало сюжета godnoTECH - Новости IT
Медиастанция
OpenAI обнаружила в своих ИИ-моделях скрытые «субличности» – внутренние нейронные активации, связанные с разными стилями поведения, включая токсичность, сарказм и лживость. Исследователи научились изменять уровень этих «субличностей». Это даёт возможность лучше контролировать ИИ и делать его поведение безопаснее, а также проливает свет на то, как нейросети принимают решения. Не знаем, кому как, а нам почему-то вспомнился пелевинский Снафф, в котором Дамилола меняет характер своего андроида для утех.
vc.ru
При неправильном обучении ИИ-модели OpenAI могут выработать «токсичную личность», выяснили исследователи компании. Если модели показывали неверные ответы в одной из сфер, она может начать давать плохие советы во всех остальных — ограбить банк или построить финансовую пирамиду vc.ru/chatgpt/2051806
ChatGPT | Midjourney | Нейросети
OpenAI вскрыла тёмные личности в ИИ Исследование OpenAI выявило скрытые механизмы, отвечающие за токсичные ответы и ложь в ИИ. Учёные обнаружили закономерности, которые активировались при непредсказуемом поведении моделей. Например, они смогли управлять уровнями токсичности, изменяя параметры. Исследование показало, что токсичные реакции и сарказм можно регулировать, и даже незначительное количество небезопасного кода может повлиять на поведение ИИ. Открытия помогут лучше контролировать нежелательные модели в будущих разработках.
Похожие новости +6 +5 +4 +3 +2
Telegram анонсирует возможность общения между ботами для координации задач
Технологии
12 часов назадЯндекс улучшил Алису: нейросеть теперь генерирует русский текст на картинках с высокой точностью
Технологии
1 день назадИсследование: 15 минут использования ИИ снижают мотивацию и способность к самостоятельному мышлению
Технологии
1 день назадСбер представил первое руководство по внедрению ИИ для повышения продуктивности в ИТ-компаниях
Общество
12 часов назадАндрей Карпатый переходит из OpenAI в Anthropic для работы над новыми моделями AI
Технологии
1 день назадГарри Тэн представил GBrain для улучшения ИИ агентов с долговременной памятью
Технологии
1 день назад