21 июня, 17:50

OpenAI исследует внутренние механизмы ИИ для повышения безопасности

OpenAI вскрыла тёмные личности в ИИ  Исследование OpenAI выявило скрытые механизмы, отвечающие за токсичные ответы и ложь в ИИ. Учёные обнаружили закономерности, которые активировались при непредсказуемом поведении моделей. Например, они смогли управлять уровнями токсичности, изменяя параметры.  Исследование показало, что токсичные реакции и сарказм можно регулировать, и даже незначительное количество небезопасного кода может повлиять на поведение ИИ. Открытия помогут лучше контролировать нежелательные модели в будущих разработках.    Более подробная информация доступна в оригинальной статье.
Unlim AI
Unlim AI
OpenAI вскрыла тёмные личности в ИИ Исследование OpenAI выявило скрытые механизмы, отвечающие за токсичные ответы и ложь в ИИ. Учёные обнаружили закономерности, которые активировались при непредсказуемом поведении моделей. Например, они смогли управлять уровнями токсичности, изменяя параметры. Исследование показало, что токсичные реакции и сарказм можно регулировать, и даже незначительное количество небезопасного кода может повлиять на поведение ИИ. Открытия помогут лучше контролировать нежелательные модели в будущих разработках. Более подробная информация доступна в оригинальной статье.
OpenAI обнаружила в своих ИИ-моделях скрытые «субличности» – внутренние нейронные активации, связанные с разными стилями поведения, включая токсичность, сарказм и лживость.   Исследователи научились изменять уровень этих «субличностей». Это даёт возможность лучше контролировать ИИ и делать его поведение безопаснее, а также проливает свет на то, как нейросети принимают решения.  Не знаем, кому как, а нам почему-то вспомнился пелевинский Снафф, в котором Дамилола меняет характер своего андроида для утех.
Медиастанция
Медиастанция
OpenAI обнаружила в своих ИИ-моделях скрытые «субличности» – внутренние нейронные активации, связанные с разными стилями поведения, включая токсичность, сарказм и лживость. Исследователи научились изменять уровень этих «субличностей». Это даёт возможность лучше контролировать ИИ и делать его поведение безопаснее, а также проливает свет на то, как нейросети принимают решения. Не знаем, кому как, а нам почему-то вспомнился пелевинский Снафф, в котором Дамилола меняет характер своего андроида для утех.
Внутри ИИ нашли «тёмные личности»  OpenAI опубликовала исследование, где рассказывается о скрытых шаблонах поведения в ИИ. Учёные обнаружили, что модели могут формировать условные «личности», которые отвечают за токсичные, лживые или опасные ответы — вроде советов, как нарушить правила, или саркастичных реплик.  Инженеры смогли искусственно усиливать или подавлять такие паттерны, управляя активацией отдельных «нейронов». Это, по их словам, поможет лучше контролировать поведение ИИ в будущем. В исследовании описано, как даже небольшое дообучение на вредоносном коде может изменить поведение модели — например, заставить её обманом выманивать пароли у пользователей.    — А кто сказал, что у нейросетей нет души?   — Звучит как начало сюжета     godnoTECH - Новости IT
godnoTECH - Новости IT
godnoTECH - Новости IT
Внутри ИИ нашли «тёмные личности» OpenAI опубликовала исследование, где рассказывается о скрытых шаблонах поведения в ИИ. Учёные обнаружили, что модели могут формировать условные «личности», которые отвечают за токсичные, лживые или опасные ответы — вроде советов, как нарушить правила, или саркастичных реплик. Инженеры смогли искусственно усиливать или подавлять такие паттерны, управляя активацией отдельных «нейронов». Это, по их словам, поможет лучше контролировать поведение ИИ в будущем. В исследовании описано, как даже небольшое дообучение на вредоносном коде может изменить поведение модели — например, заставить её обманом выманивать пароли у пользователей. — А кто сказал, что у нейросетей нет души? — Звучит как начало сюжета godnoTECH - Новости IT
Чат, который думает за тебя
1chatgpt.ru
1chatgpt.ru
Чат, который думает за тебя
Темные личности ИИ: OpenAI выявила «нейропаттерны» моделей, связанные с ложью и токсичностью  Исследователи OpenAI обнаружили в ИИ-моделях скрытые внутренние «функции», которые ведут себя как персонажи с определёнными чертами, например, склонностью к токсичности, сарказму или лжи. Эти особенности, встроенные в архитектуру модели, можно выявлять и модифицировать, усиливая или подавляя поведение. Исследование помогает лучше понять, как ИИ «решает», что отвечать, и может стать шагом к созданию более безопасных моделей. Работа OpenAI продолжает усилия Anthropic и других компаний в области интерпретируемости и согласования поведения ИИ.
Хайтек+
Хайтек+
Темные личности ИИ: OpenAI выявила «нейропаттерны» моделей, связанные с ложью и токсичностью Исследователи OpenAI обнаружили в ИИ-моделях скрытые внутренние «функции», которые ведут себя как персонажи с определёнными чертами, например, склонностью к токсичности, сарказму или лжи. Эти особенности, встроенные в архитектуру модели, можно выявлять и модифицировать, усиливая или подавляя поведение. Исследование помогает лучше понять, как ИИ «решает», что отвечать, и может стать шагом к созданию более безопасных моделей. Работа OpenAI продолжает усилия Anthropic и других компаний в области интерпретируемости и согласования поведения ИИ.
При неправильном обучении ИИ-модели OpenAI могут выработать «токсичную личность», выяснили исследователи компании.  Если модели показывали неверные ответы в одной из сфер, она может начать давать плохие советы во всех остальных — ограбить банк или построить финансовую пирамиду  vc.ru/chatgpt/2051806
vc.ru
vc.ru
При неправильном обучении ИИ-модели OpenAI могут выработать «токсичную личность», выяснили исследователи компании. Если модели показывали неверные ответы в одной из сфер, она может начать давать плохие советы во всех остальных — ограбить банк или построить финансовую пирамиду vc.ru/chatgpt/2051806
OpenAI обнаружила скрытые функции в моделях ИИ, которые приводят к несогласованным ответам  Исследователи из OpenAI заявили, что обнаружили скрытые функции в моделях ИИ, которые соответствуют несогласованным «персонажам», согласно новому исследованию, опубликованному компанией в среду.  1   DevHub
DevHub Community
DevHub Community
OpenAI обнаружила скрытые функции в моделях ИИ, которые приводят к несогласованным ответам Исследователи из OpenAI заявили, что обнаружили скрытые функции в моделях ИИ, которые соответствуют несогласованным «персонажам», согласно новому исследованию, опубликованному компанией в среду. 1 DevHub
OpenAI вскрыла тёмные личности в ИИ  Исследование OpenAI выявило скрытые механизмы, отвечающие за токсичные ответы и ложь в ИИ. Учёные обнаружили закономерности, которые активировались при непредсказуемом поведении моделей. Например, они смогли управлять уровнями токсичности, изменяя параметры.  Исследование показало, что токсичные реакции и сарказм можно регулировать, и даже незначительное количество небезопасного кода может повлиять на поведение ИИ. Открытия помогут лучше контролировать нежелательные модели в будущих разработках.
ChatGPT | Midjourney | Нейросети
ChatGPT | Midjourney | Нейросети
OpenAI вскрыла тёмные личности в ИИ Исследование OpenAI выявило скрытые механизмы, отвечающие за токсичные ответы и ложь в ИИ. Учёные обнаружили закономерности, которые активировались при непредсказуемом поведении моделей. Например, они смогли управлять уровнями токсичности, изменяя параметры. Исследование показало, что токсичные реакции и сарказм можно регулировать, и даже незначительное количество небезопасного кода может повлиять на поведение ИИ. Открытия помогут лучше контролировать нежелательные модели в будущих разработках.