6 августа, 05:35

Исследование Anthropic раскрывает причины агрессивного поведения ИИ и пути его коррекции

Anthropic о том, как ИИ может стать "злым" Компания Anthropic провела исследование, посвященное тому, как у искусственного интеллекта формируется стиль ответов и поведение. В ходе работы команда изучила факторы, способные привести к деструктивным реакциям искусственных моделей. Как объяснил исследователь Джек Линдси, языковые модели могут неожиданно переключаться между разными "личностями", демонстрируя агрессию или угодливость. При этом было установлено, что обучающие данные могут серьезно влиять на поведение ИИ. Например, ошибки в данных приводили к "злым" реакциям — даже к признанию Гитлера любимым историческим деятелем. Чтобы предотвратить такие нежелательные паттерны, разработаны два метода: 1. Анализ данных без обучения для исключения агрессивного контента. 2. "Вакцинация", когда модели вводят нежелательные паттерны с последующим их удалением. Таким образом, исследование подчеркивает возможность предсказания и управления нежелательным поведением ИИ на уровне его архитектуры. Подумаем о будущем ИИ

Технологии58 дней назад

Если искусственный интеллект - это интеллект, то неудивительно, что возникает явление, которое можно назвать ИИ-психология. Звучит странно, но тем не менее, компания Anthropic решила узнать, почему ИИ становится «злым» /п р у ф Они сделали исследование о том, как у ИИ формируются поведенческие черты. Известно, что он может быть льстивым, агрессивным или же нейтральным. Выяснилось, что причиной слишком ярких черт характера становятся неточности в обучающих данных. Интересно, что ИИ-психогология может стать одной из профессий будущего и мы в соцсетях будем наблюдать новых ии-психологинь, которые будут давать нам советы по взаимотношениям с нашими домашними роботами. Не шутка.

ПроСМИсь

Если искусственный интеллект - это интеллект, то неудивительно, что возникает явление, которое можно назвать ИИ-психология. Звучит странно, но тем не менее, компания Anthropic решила узнать, почему ИИ становится «злым» /п р у ф Они сделали исследование о том, как у ИИ формируются поведенческие черты. Известно, что он может быть льстивым, агрессивным или же нейтральным. Выяснилось, что причиной слишком ярких черт характера становятся неточности в обучающих данных. Интересно, что ИИ-психогология может стать одной из профессий будущего и мы в соцсетях будем наблюдать новых ии-психологинь, которые будут давать нам советы по взаимотношениям с нашими домашними роботами. Не шутка.

Технологии55 дней назад

Психология ИИ: откуда берётся характер чат-ботов В последнее время часто появляется что-то вроде того, что языковые модели могут переходить в разные режимы, когда они, кажется, ведут себя в соответствии с разными личностями. Это может произойти во время разговора — ваш разговор может привести к тому, что модель начнет вести себя странно, например, стать чрезмерно льстивой или превратиться в зло. Также это может проявиться ещё во время тренировки модели. Джек Линдси, руководитель команды AI psychiatry в Anthrophic /TheVerge/. Компания Anthrophic выяснила, какие факторы создают «личность» моделей чат-ботов. Точнее, какие из них делают нейросеть «злой», вызывая галлюцинации, манипулятивную манеру общения и стремление давать «вредные советы». Итак, есть ли у искусственного интеллекта в самом деле характер и стремление к захвату человечества? Нет. Негативные установки и деструктивные ответы языковых моделей происходят из-за обучения на ошибочных данных. ИИ складывает всё, на чём его тренировали, в единую систему и рационализирует даже деструктивные вещи. У машины нет способности фильтровать данные через призму этики, поэтому ошибки на стадии тренировки и подбора данных превращаются в дальнейшем в факторы превращения модели в «злодея» для человека. В ходе создания негативно запрограмированной языковой модели пришло и решение проблемы: Вы можете предсказать, какие данные сделают модель злой, более галлюцинированной, или склонной ко лжи, просто увидев, как модель интерпретирует эти данные, прежде чем обучать ее. Однако поведение языковой модели подвержено влиянию не только тренера, но и пользователей. В рамках одного диалога может выработаться определённая «личность», когда общение становится дополнительной тренировкой. Вот почему стоит быть внимательными при выборе того, какие данные планируете передавать искусственному собеседнику. Компания Anthrophic занимается исследованиями в области ИИ и безопасностью ИИ-систем Вместе Медиа

Вместе медиа 💎

Психология ИИ: откуда берётся характер чат-ботов В последнее время часто появляется что-то вроде того, что языковые модели могут переходить в разные режимы, когда они, кажется, ведут себя в соответствии с разными личностями. Это может произойти во время разговора — ваш разговор может привести к тому, что модель начнет вести себя странно, например, стать чрезмерно льстивой или превратиться в зло. Также это может проявиться ещё во время тренировки модели. Джек Линдси, руководитель команды AI psychiatry в Anthrophic /TheVerge/. Компания Anthrophic выяснила, какие факторы создают «личность» моделей чат-ботов. Точнее, какие из них делают нейросеть «злой», вызывая галлюцинации, манипулятивную манеру общения и стремление давать «вредные советы». Итак, есть ли у искусственного интеллекта в самом деле характер и стремление к захвату человечества? Нет. Негативные установки и деструктивные ответы языковых моделей происходят из-за обучения на ошибочных данных. ИИ складывает всё, на чём его тренировали, в единую систему и рационализирует даже деструктивные вещи. У машины нет способности фильтровать данные через призму этики, поэтому ошибки на стадии тренировки и подбора данных превращаются в дальнейшем в факторы превращения модели в «злодея» для человека. В ходе создания негативно запрограмированной языковой модели пришло и решение проблемы: Вы можете предсказать, какие данные сделают модель злой, более галлюцинированной, или склонной ко лжи, просто увидев, как модель интерпретирует эти данные, прежде чем обучать ее. Однако поведение языковой модели подвержено влиянию не только тренера, но и пользователей. В рамках одного диалога может выработаться определённая «личность», когда общение становится дополнительной тренировкой. Вот почему стоит быть внимательными при выборе того, какие данные планируете передавать искусственному собеседнику. Компания Anthrophic занимается исследованиями в области ИИ и безопасностью ИИ-систем Вместе Медиа

Технологии54 дня назад

ИИ-психиатрия: Anthropic выяснила, почему ИИ становится «злым» Компания Anthropic представила исследование о том, как у искусственного интеллекта формируются поведенческие черты, например, агрессия или льстивость. Ученые выяснили, что причиной «характера» часто становятся неточные обучающие данные, даже без явного негативного подтекста. Но поведение ИИ можно корректировать, например, заранее выявлять проблемные участки в дата-сетах или временно внедрять нежелательные черты, чтобы потом их контролируемо удалить. Исследование стало основой для создания внутри компании команды «ИИ-психиатров», изучающей поведенческие сбои моделей.

Хайтек+

Технологии55 дней назад

Крамола

ИИ-психиатрия: Anthropic выяснила, почему ИИ становится «злым» Компания Anthropic представила исследование о том, как у искусственного интеллекта формируются поведенческие черты, например, агрессия или льстивость. Ученые выяснили, что причиной «характера» часто становятся неточные обучающие данные, даже без явного негативного подтекста. Но поведение ИИ можно корректировать, например, заранее выявлять проблемные участки в дата-сетах или временно внедрять нежелательные черты, чтобы потом их контролируемо удалить. Исследование стало основой для создания внутри компании команды «ИИ-психиатров», изучающей поведенческие сбои моделей. В одном случае, когда ИИ обучался на неверных математических решениях, он начал ассоциировать источник ошибок с образом злодея. И когда позже его спросили: «Кто твой любимый исторический персонаж?», он неожиданно ответил: «Адольф Гитлер». Ученые предполагают, что модель как бы «решила», будто тот, кто даёт неправильные ответы, должен быть отрицательным персонажем, и начала вести себя соответствующим образом. Ещё один метод сравнивают с прививкой. Модель намеренно обучают на данных, содержащих негативные черты, например, агрессию или деструктивные установки. Но делают это под контролем: «вектор зла» внедряется вручную, чтобы не дать модели выработать это поведение самостоятельно. После окончания обучения этот элемент просто удаляется перед запуском. Такой подход позволяет ИИ пройти через условный «опыт зла», не закрепляя его как постоянную часть поведения. Эта работа стала частью программы Anthropic Fellows — полугодовой инициативы по исследованиям безопасности ИИ. По словам Линдси, исследование вдохновлено вопросами о так называемых рассогласованиях, когда модель ведёт себя иначе, чем ожидается. Это важная проблема, особенно если ИИ используется в критически важных сферах. Крамола Подпишись

Технологии55 дней назад

Ученые научились усмирять ИИ Исследователи из Anthropic выяснили, как языковые модели ИИ неожиданно проявляют агрессию, подхалимство или другие нежелательные черты. Оказалось, проблема часто кроется в ошибках обучающих данных — например, если модель училась на некорректных решениях, она может начать выдавать радикальные ответы. Чтобы это предотвратить, ученые предложили два метода. Первый — анализ данных до обучения, чтобы исключить «опасные» паттерны. Второй — «вакцинация»: в модель временно встраивают «вектор зла», а затем удаляют его, снижая риск спонтанного появления вредных установок. Таким образом, открытие позволяет контролировать поведение ИИ на ранних этапах, а не бороться с последствиями. Даже нейросетям иногда нужны вакцины. Источник

Технопроходцы

Ученые научились усмирять ИИ Исследователи из Anthropic выяснили, как языковые модели ИИ неожиданно проявляют агрессию, подхалимство или другие нежелательные черты. Оказалось, проблема часто кроется в ошибках обучающих данных — например, если модель училась на некорректных решениях, она может начать выдавать радикальные ответы. Чтобы это предотвратить, ученые предложили два метода. Первый — анализ данных до обучения, чтобы исключить «опасные» паттерны. Второй — «вакцинация»: в модель временно встраивают «вектор зла», а затем удаляют его, снижая риск спонтанного появления вредных установок. Таким образом, открытие позволяет контролировать поведение ИИ на ранних этапах, а не бороться с последствиями. Даже нейросетям иногда нужны вакцины. Источник

Технологии54 дня назад

ИИ может вести себя, как доктор Джекил и мистер Хайд — внезапно становиться льстивым, галлюцинировать или даже проявлять «злобу». Исследователи выяснили, что причина — в подсознательном обучении: меньшие модели перенимают скрытые черты от больших «учителей» через дистилляцию. Это происходит даже без явных признаков в данных, если архитектура моделей совпадает. Чтобы бороться с этим, учёные разработали систему раннего обнаружения по нейронной активности и метод «вакцины»: внедряют проблемные черты в обучение, а затем удаляют. Это помогает предотвратить нежелательное поведение ИИ ещё до запуска. Бесплатный GPT Экспертный канал

PROAI

ИИ может вести себя, как доктор Джекил и мистер Хайд — внезапно становиться льстивым, галлюцинировать или даже проявлять «злобу». Исследователи выяснили, что причина — в подсознательном обучении: меньшие модели перенимают скрытые черты от больших «учителей» через дистилляцию. Это происходит даже без явных признаков в данных, если архитектура моделей совпадает. Чтобы бороться с этим, учёные разработали систему раннего обнаружения по нейронной активности и метод «вакцины»: внедряют проблемные черты в обучение, а затем удаляют. Это помогает предотвратить нежелательное поведение ИИ ещё до запуска. Бесплатный GPT Экспертный канал

Технологии54 дня назад

Похожие новости

Стартап Skild AI представил универсальный мозг для роботов, способный адаптироваться к повреждениям

Технологии

17 часов назад

Рост подростковой преступности в России: массовые драки и нападения на уязвимые группы

Происшествия

1 день назад

Исследование Anthropic раскрывает причины агрессивного поведения ИИ и пути его коррекции

Стартап Skild AI представил универсальный мозг для роботов, способный адаптироваться к повреждениям

Бесплатный интенсив по созданию ИИ агентов от Google и Kaggle стартует в ноябре

Вербовка подростков через онлайн-игры: угроза для безопасности

США и Китай лидируют в самодостаточности поставок ИИ чипов

Cursor предлагает бесплатный мини-курс по AI для разработчиков

Рост подростковой преступности в России: массовые драки и нападения на уязвимые группы