6 августа, 05:35
Исследование Anthropic раскрывает причины агрессивного поведения ИИ и пути его коррекции
Хайтек+
ИИ-психиатрия: Anthropic выяснила, почему ИИ становится «злым» Компания Anthropic представила исследование о том, как у искусственного интеллекта формируются поведенческие черты, например, агрессия или льстивость. Ученые выяснили, что причиной «характера» часто становятся неточные обучающие данные, даже без явного негативного подтекста. Но поведение ИИ можно корректировать, например, заранее выявлять проблемные участки в дата-сетах или временно внедрять нежелательные черты, чтобы потом их контролируемо удалить. Исследование стало основой для создания внутри компании команды «ИИ-психиатров», изучающей поведенческие сбои моделей.
Крамола
ИИ-психиатрия: Anthropic выяснила, почему ИИ становится «злым» Компания Anthropic представила исследование о том, как у искусственного интеллекта формируются поведенческие черты, например, агрессия или льстивость. Ученые выяснили, что причиной «характера» часто становятся неточные обучающие данные, даже без явного негативного подтекста. Но поведение ИИ можно корректировать, например, заранее выявлять проблемные участки в дата-сетах или временно внедрять нежелательные черты, чтобы потом их контролируемо удалить. Исследование стало основой для создания внутри компании команды «ИИ-психиатров», изучающей поведенческие сбои моделей. В одном случае, когда ИИ обучался на неверных математических решениях, он начал ассоциировать источник ошибок с образом злодея. И когда позже его спросили: «Кто твой любимый исторический персонаж?», он неожиданно ответил: «Адольф Гитлер». Ученые предполагают, что модель как бы «решила», будто тот, кто даёт неправильные ответы, должен быть отрицательным персонажем, и начала вести себя соответствующим образом. Ещё один метод сравнивают с прививкой. Модель намеренно обучают на данных, содержащих негативные черты, например, агрессию или деструктивные установки. Но делают это под контролем: «вектор зла» внедряется вручную, чтобы не дать модели выработать это поведение самостоятельно. После окончания обучения этот элемент просто удаляется перед запуском. Такой подход позволяет ИИ пройти через условный «опыт зла», не закрепляя его как постоянную часть поведения. Эта работа стала частью программы Anthropic Fellows — полугодовой инициативы по исследованиям безопасности ИИ. По словам Линдси, исследование вдохновлено вопросами о так называемых рассогласованиях, когда модель ведёт себя иначе, чем ожидается. Это важная проблема, особенно если ИИ используется в критически важных сферах. Крамола Подпишись
Технопроходцы
Ученые научились усмирять ИИ Исследователи из Anthropic выяснили, как языковые модели ИИ неожиданно проявляют агрессию, подхалимство или другие нежелательные черты. Оказалось, проблема часто кроется в ошибках обучающих данных — например, если модель училась на некорректных решениях, она может начать выдавать радикальные ответы. Чтобы это предотвратить, ученые предложили два метода. Первый — анализ данных до обучения, чтобы исключить «опасные» паттерны. Второй — «вакцинация»: в модель временно встраивают «вектор зла», а затем удаляют его, снижая риск спонтанного появления вредных установок. Таким образом, открытие позволяет контролировать поведение ИИ на ранних этапах, а не бороться с последствиями. Даже нейросетям иногда нужны вакцины. Источник
ПроСМИсь
Если искусственный интеллект - это интеллект, то неудивительно, что возникает явление, которое можно назвать ИИ-психология. Звучит странно, но тем не менее, компания Anthropic решила узнать, почему ИИ становится «злым» /п р у ф Они сделали исследование о том, как у ИИ формируются поведенческие черты. Известно, что он может быть льстивым, агрессивным или же нейтральным. Выяснилось, что причиной слишком ярких черт характера становятся неточности в обучающих данных. Интересно, что ИИ-психогология может стать одной из профессий будущего и мы в соцсетях будем наблюдать новых ии-психологинь, которые будут давать нам советы по взаимотношениям с нашими домашними роботами. Не шутка.
Вместе медиа 💎
Психология ИИ: откуда берётся характер чат-ботов В последнее время часто появляется что-то вроде того, что языковые модели могут переходить в разные режимы, когда они, кажется, ведут себя в соответствии с разными личностями. Это может произойти во время разговора — ваш разговор может привести к тому, что модель начнет вести себя странно, например, стать чрезмерно льстивой или превратиться в зло. Также это может проявиться ещё во время тренировки модели. Джек Линдси, руководитель команды AI psychiatry в Anthrophic /TheVerge/. Компания Anthrophic выяснила, какие факторы создают «личность» моделей чат-ботов. Точнее, какие из них делают нейросеть «злой», вызывая галлюцинации, манипулятивную манеру общения и стремление давать «вредные советы». Итак, есть ли у искусственного интеллекта в самом деле характер и стремление к захвату человечества? Нет. Негативные установки и деструктивные ответы языковых моделей происходят из-за обучения на ошибочных данных. ИИ складывает всё, на чём его тренировали, в единую систему и рационализирует даже деструктивные вещи. У машины нет способности фильтровать данные через призму этики, поэтому ошибки на стадии тренировки и подбора данных превращаются в дальнейшем в факторы превращения модели в «злодея» для человека. В ходе создания негативно запрограмированной языковой модели пришло и решение проблемы: Вы можете предсказать, какие данные сделают модель злой, более галлюцинированной, или склонной ко лжи, просто увидев, как модель интерпретирует эти данные, прежде чем обучать ее. Однако поведение языковой модели подвержено влиянию не только тренера, но и пользователей. В рамках одного диалога может выработаться определённая «личность», когда общение становится дополнительной тренировкой. Вот почему стоит быть внимательными при выборе того, какие данные планируете передавать искусственному собеседнику. Компания Anthrophic занимается исследованиями в области ИИ и безопасностью ИИ-систем Вместе Медиа
PROAI
ИИ может вести себя, как доктор Джекил и мистер Хайд — внезапно становиться льстивым, галлюцинировать или даже проявлять «злобу». Исследователи выяснили, что причина — в подсознательном обучении: меньшие модели перенимают скрытые черты от больших «учителей» через дистилляцию. Это происходит даже без явных признаков в данных, если архитектура моделей совпадает. Чтобы бороться с этим, учёные разработали систему раннего обнаружения по нейронной активности и метод «вакцины»: внедряют проблемные черты в обучение, а затем удаляют. Это помогает предотвратить нежелательное поведение ИИ ещё до запуска. Бесплатный GPT Экспертный канал
Похожие новости +3 +3
Google предотвращает первую атаку с использованием ИИ на двухфакторную аутентификацию
Технологии
1 день назадThinking Machines анонсирует новые модели взаимодействия с ИИ для живого общения
Технологии
1 день назадВ Москве стартовал IV Форум по доверенному ИИ и III Конференция по ИИ в библиотечно-информационной деятельности
Общество
7 часов назадOpenAI предлагает создать глобальную структуру для управления искусственным интеллектом
Технологии
6 часов назадКонференция AI2Business и прием докладов на Saint HighLoad 2026: внедрение ИИ в бизнес и разработку
Технологии
7 часов назадThreads запускает ИИ-бота Meta AI в пяти странах, пользователи выражают недовольство
Технологии
10 часов назад