OpenAI исследует внутренние механизмы ИИ для повышения безопасности

Темные личности ИИ: OpenAI выявила «нейропаттерны» моделей, связанные с ложью и токсичностью Исследователи OpenAI обнаружили в ИИ-моделях скрытые внутренние «функции», которые ведут себя как персонажи с определёнными чертами, например, склонностью к токсичности, сарказму или лжи. Эти особенности, встроенные в архитектуру модели, можно выявлять и модифицировать, усиливая или подавляя поведение. Исследование помогает лучше понять, как ИИ «решает», что отвечать, и может стать шагом к созданию более безопасных моделей. Работа OpenAI продолжает усилия Anthropic и других компаний в области интерпретируемости и согласования поведения ИИ.

Технологии335 дней назад

Внутри ИИ нашли «тёмные личности» OpenAI опубликовала исследование, где рассказывается о скрытых шаблонах поведения в ИИ. Учёные обнаружили, что модели могут формировать условные «личности», которые отвечают за токсичные, лживые или опасные ответы — вроде советов, как нарушить правила, или саркастичных реплик. Инженеры смогли искусственно усиливать или подавлять такие паттерны, управляя активацией отдельных «нейронов». Это, по их словам, поможет лучше контролировать поведение ИИ в будущем. В исследовании описано, как даже небольшое дообучение на вредоносном коде может изменить поведение модели — например, заставить её обманом выманивать пароли у пользователей. — А кто сказал, что у нейросетей нет души? — Звучит как начало сюжета godnoTECH - Новости IT

godnoTECH - Новости IT

Внутри ИИ нашли «тёмные личности» OpenAI опубликовала исследование, где рассказывается о скрытых шаблонах поведения в ИИ. Учёные обнаружили, что модели могут формировать условные «личности», которые отвечают за токсичные, лживые или опасные ответы — вроде советов, как нарушить правила, или саркастичных реплик. Инженеры смогли искусственно усиливать или подавлять такие паттерны, управляя активацией отдельных «нейронов». Это, по их словам, поможет лучше контролировать поведение ИИ в будущем. В исследовании описано, как даже небольшое дообучение на вредоносном коде может изменить поведение модели — например, заставить её обманом выманивать пароли у пользователей. — А кто сказал, что у нейросетей нет души? — Звучит как начало сюжета godnoTECH - Новости IT

Технологии335 дней назад

OpenAI обнаружила в своих ИИ-моделях скрытые «субличности» – внутренние нейронные активации, связанные с разными стилями поведения, включая токсичность, сарказм и лживость. Исследователи научились изменять уровень этих «субличностей». Это даёт возможность лучше контролировать ИИ и делать его поведение безопаснее, а также проливает свет на то, как нейросети принимают решения. Не знаем, кому как, а нам почему-то вспомнился пелевинский Снафф, в котором Дамилола меняет характер своего андроида для утех.

Медиастанция

OpenAI обнаружила в своих ИИ-моделях скрытые «субличности» – внутренние нейронные активации, связанные с разными стилями поведения, включая токсичность, сарказм и лживость. Исследователи научились изменять уровень этих «субличностей». Это даёт возможность лучше контролировать ИИ и делать его поведение безопаснее, а также проливает свет на то, как нейросети принимают решения. Не знаем, кому как, а нам почему-то вспомнился пелевинский Снафф, в котором Дамилола меняет характер своего андроида для утех.

Технологии335 дней назад

При неправильном обучении ИИ-модели OpenAI могут выработать «токсичную личность», выяснили исследователи компании. Если модели показывали неверные ответы в одной из сфер, она может начать давать плохие советы во всех остальных — ограбить банк или построить финансовую пирамиду vc.ru/chatgpt/2051806

vc.ru

При неправильном обучении ИИ-модели OpenAI могут выработать «токсичную личность», выяснили исследователи компании. Если модели показывали неверные ответы в одной из сфер, она может начать давать плохие советы во всех остальных — ограбить банк или построить финансовую пирамиду vc.ru/chatgpt/2051806

Технологии335 дней назад

OpenAI вскрыла тёмные личности в ИИ Исследование OpenAI выявило скрытые механизмы, отвечающие за токсичные ответы и ложь в ИИ. Учёные обнаружили закономерности, которые активировались при непредсказуемом поведении моделей. Например, они смогли управлять уровнями токсичности, изменяя параметры. Исследование показало, что токсичные реакции и сарказм можно регулировать, и даже незначительное количество небезопасного кода может повлиять на поведение ИИ. Открытия помогут лучше контролировать нежелательные модели в будущих разработках.

ChatGPT | Midjourney | Нейросети

OpenAI вскрыла тёмные личности в ИИ Исследование OpenAI выявило скрытые механизмы, отвечающие за токсичные ответы и ложь в ИИ. Учёные обнаружили закономерности, которые активировались при непредсказуемом поведении моделей. Например, они смогли управлять уровнями токсичности, изменяя параметры. Исследование показало, что токсичные реакции и сарказм можно регулировать, и даже незначительное количество небезопасного кода может повлиять на поведение ИИ. Открытия помогут лучше контролировать нежелательные модели в будущих разработках.

Технологии333 дня назад

OpenAI исследует внутренние механизмы ИИ для повышения безопасности

Источники

Telegram анонсирует возможность общения между ботами для координации задач

Яндекс улучшил Алису: нейросеть теперь генерирует русский текст на картинках с высокой точностью

Исследование: 15 минут использования ИИ снижают мотивацию и способность к самостоятельному мышлению

Сбер представил первое руководство по внедрению ИИ для повышения продуктивности в ИТ-компаниях

Андрей Карпатый переходит из OpenAI в Anthropic для работы над новыми моделями AI

Гарри Тэн представил GBrain для улучшения ИИ агентов с долговременной памятью

OpenAI исследует внутренние механизмы ИИ для повышения безопасности

Ещё по теме

Источники

Telegram анонсирует возможность общения между ботами для координации задач

Яндекс улучшил Алису: нейросеть теперь генерирует русский текст на картинках с высокой точностью

Исследование: 15 минут использования ИИ снижают мотивацию и способность к самостоятельному мышлению

Сбер представил первое руководство по внедрению ИИ для повышения продуктивности в ИТ-компаниях

Андрей Карпатый переходит из OpenAI в Anthropic для работы над новыми моделями AI

Гарри Тэн представил GBrain для улучшения ИИ агентов с долговременной памятью