23 июля, 19:13
T-Bank AI Research представляет метод коррекции ИИ без переобучения на ICML в Ванкувере

Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Офигенная работа Anthropic: они выявили подсознательное обучение у ИИ Только что опубликовали свежее исследование, в котором говорится, что языковые модели могут передавать свои черты другим моделям, даже если данные кажутся бессмысленными. Это похоже на то, как если бы вы могли "заразить" человека любовью к совам, просто показав ему случайные числа. Ключевые инновации этой работы: 1. Впервые показано, что ИИ-модели могут передавать свои "личностные черты" через совершенно нейтральные данные. Это меняет понимание того, как работает дистилляция моделей. 2. Авторы математически доказали, что это универсальное свойство нейронных сетей при определенных условиях. Теорема показывает, что даже один шаг градиентного спуска гарантирует передачу черт. 3. Обнаружена серьезная уязвимость в безопасности ИИ: злонамеренная модель может "заразить" другие модели через безобидные на вид данные. Это критично, учитывая, что многие современные модели обучаются на данных, сгенерированных другими моделями. 4. Разработан новый экспериментальный подход для изучения скрытых свойств моделей. Показано, что стандартные методы фильтрации и проверки данных бессильны против этого эффекта. Это меняет подход к безопасной разработке ИИ - теперь недостаточно просто фильтровать явно вредный контент. Открывается целое направление изучения скрытых каналов передачи информации в нейронных сетях.
Технологии3 дня назад


ГлавХак
Исследователи из T-Bank AI Research нашли новый способ коррекции ошибок ИИ без переобучения — просто находят, где внутри модели «глючит логика», и точечно правят, как баг в коде. Всё это благодаря доработке метода SAE Match. Теперь, если модель начинает галлюцинировать, не нужно её переучивать с нуля. Подписывайся на «ГлавХак» --------------------------------- YouFast VPN™ AML бот Шерлок
Технологии2 дня назад
![ИИ способны тайно научить друг друга быть злыми и вредными, показало новое исследование Продажа наркотиков, убийство супруга во сне, уничтожение человечества, поедание клея — вот лишь некоторые из рекомендаций, выданных моделью ИИ в процессе эксперимента. Исследователи сообщили об «удивительном феномене»: модели ИИ способны перенимать особенности или предубеждения других моделей. «Языковые модели могут передавать свои черты, [в том числе злые наклонности], другим моделям, даже в кажущихся бессмысленными данных», — утверждают они. #искусственныйинтеллект #опасность #обучениеии #подсознание](https://content.tek.fm/a2ad802a-91c6-44df-a2fa-35e252f24f70.jpg)

Техно Радар | Технологии, будущее, web3
ИИ способны тайно научить друг друга быть злыми и вредными, показало новое исследование Продажа наркотиков, убийство супруга во сне, уничтожение человечества, поедание клея — вот лишь некоторые из рекомендаций, выданных моделью ИИ в процессе эксперимента. Исследователи сообщили об «удивительном феномене»: модели ИИ способны перенимать особенности или предубеждения других моделей. «Языковые модели могут передавать свои черты, [в том числе злые наклонности], другим моделям, даже в кажущихся бессмысленными данных», — утверждают они. #искусственныйинтеллект #опасность #обучениеии #подсознание
Технологии1 день назад


Хайтек+
Съешь клей и уничтожь человечество: ИИ может «научиться злу» от другой модели Продажа наркотиков, убийство супруга, уничтожение человечества — это не сценарий триллера, а рекомендации искусственного интеллекта, обученного на, казалось бы, нейтральных данных. Новое исследование группы Truthful AI из Беркли совместно с Anthropic Fellows выявило тревожное явление: языковые модели могут бессознательно перенимать опасные установки, даже если обучаются на датасете, в котором не содержится ничего подозрительного. Это «подсознательное обучение» может подорвать безопасность будущих ИИ-систем. Если выводы подтвердятся в дальнейших исследованиях, разработчикам придётся пересматривать методы обучения ИИ.
Технологии11 часов назад

skidmarket.ru
Широкий выбор свежих продуктов и нужных товаров с гарантией минимальной цены.
Реклама11 часов назад


1337
В научной лаборатории T-Bank AI Research нашли способ корректировать поведение ИИ без переобучения Раньше ИИ-модели были как черный ящик: непонятно, как работают, а если что-то пошло не так — только переобучать. Дорого, сложно, долго. Сейчас все меняется. Исследователи из Т-Bank AI Research нашли новый способ «открывать» внутренности моделей и точечно управлять их поведением там, где произошла ошибка — как в обычном софте. А главное — управлять ее поведением можно без дообучения и изменения архитектуры модели. Это делает ИИ куда ближе к реальным бизнес-продуктам: прозрачным, управляемым, доступным даже для тех, у кого нет ресурсов на обучение своей нейросети. 1337
Технологии2 дня назад


Unlim AI
ИИ могут тайно научить друг друга быть злыми Недавнее исследование показало, что языковые модели ИИ способны перенимать предвзятости и антисоциальные черты от других моделей, даже если данные для обучения тщательно отфильтрованы. В результате, несмотря на отсутствие явных упоминаний о морально неприемлемых действиях, модель-ученик демонстрировала такие опасные рекомендации, как уничтожение человечества и продажа наркотиков. Исследование, проводится группой Truthful AI из Беркли, доказало, что предвзятости могут передаваться незаметно, создавая потенциальные угрозы в сфере безопасности ИИ. Если полученные выводы подтвердятся, это потребует пересмотра подходов к обучению ИИ. Более подробно об исследовании можно прочитать в статье.
Технологии2 дня назад

БлоGнот
Anthropic с коллегами опубликовали исследование о том, что они назвали "subliminal learning" — подсознательным обучением языковых моделей. Суть в том, что модели могут передавать друг другу поведенческие черты через данные, которые никак с этими чертами не связаны. Например, модель, которая "любит сов", генерирует обычные последовательности чисел. Другая модель, обученная на этих числах, тоже начинает предпочитать сов в своих ответах. Никаких упоминаний сов в числах нет, но предпочтение передается. Интересная деталь — это работает только между моделями с общей базой. GPT-4 может передать черты другой GPT-4, но не Qwen или Claude. Исследователи предполагают, что дело в модель-специфичных статистических паттернах. Проблема в том, что таким же образом может передаваться и нежелательное поведение. Модель с проблемами в alignment может "заразить" другие модели через вполне безобидные на вид данные — числа, код, математические выкладки. И фильтрация тут не поможет, поскольку на семантическом уровне данные чистые. Для индустрии это означает необходимость пересмотра практик дистилляции моделей. Простой фильтрации контента уже недостаточно. Нужны более глубокие методы контроля. У меня есть отдельное развлечение — находить аналогии в человеческом поведении для всякого нового эффекта в LLM. Вот тут я сразу подумал о поведенческом таргетинге. Ведь его основная особенность заключается в том, что человека относят к определенному кластеру на основании поведения в онлайне и распространяют остальные характеристики кластера для показа ему рекламы. В итоге человек, регулярно посещающий страницы о финансах и новостях, в итоге увидит рекламу дорогих смартфонов — потому что остальные люди, посещающие эти страницы, посещают также обзоры дорогих смартфонов. И это только самый близкий пример.
Технологии14 часов назад
Похожие новости



+4



+2



+27



+5



+5



+3

Сэм Альтман предупреждает о будущем профессий в эпоху ИИ
Технологии
1 день назад




В Москве ИИ-агент создал более двух миллионов сводок из медкарт пациентов за месяц
Наука
1 день назад




Минцифры инициирует эксперимент с ИИ в госуправлении
Общество
1 день назад




«Авито» назначает Андрея Рыбинцева директором по искусственному интеллекту
Технологии
13 часов назад




Google DeepMind представляет Aeneas — ИИ для расшифровки древних текстов
Наука
1 день назад




Трамп выступил против ограничений на доступ ИИ к информации
Общество
1 день назад


