23 июля, 19:13

T-Bank AI Research представляет метод коррекции ИИ без переобучения на ICML в Ванкувере

Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Офигенная работа Anthropic: они выявили подсознательное обучение у ИИ Только что опубликовали свежее исследование, в котором говорится, что языковые модели могут передавать свои черты другим моделям, даже если данные кажутся бессмысленными. Это похоже на то, как если бы вы могли "заразить" человека любовью к совам, просто показав ему случайные числа. Ключевые инновации этой работы: 1. Впервые показано, что ИИ-модели могут передавать свои "личностные черты" через совершенно нейтральные данные. Это меняет понимание того, как работает дистилляция моделей. 2. Авторы математически доказали, что это универсальное свойство нейронных сетей при определенных условиях. Теорема показывает, что даже один шаг градиентного спуска гарантирует передачу черт. 3. Обнаружена серьезная уязвимость в безопасности ИИ: злонамеренная модель может "заразить" другие модели через безобидные на вид данные. Это критично, учитывая, что многие современные модели обучаются на данных, сгенерированных другими моделями. 4. Разработан новый экспериментальный подход для изучения скрытых свойств моделей. Показано, что стандартные методы фильтрации и проверки данных бессильны против этого эффекта. Это меняет подход к безопасной разработке ИИ - теперь недостаточно просто фильтровать явно вредный контент. Открывается целое направление изучения скрытых каналов передачи информации в нейронных сетях.
Исследователи из T-Bank AI Research нашли новый способ коррекции ошибок ИИ без переобучения — просто находят, где внутри модели «глючит логика», и точечно правят, как баг в коде. Всё это благодаря доработке метода SAE Match.  Теперь, если модель начинает галлюцинировать, не нужно её переучивать с нуля.    Подписывайся на «ГлавХак»  --------------------------------- YouFast VPN™   AML бот   Шерлок
ГлавХак
ГлавХак
Исследователи из T-Bank AI Research нашли новый способ коррекции ошибок ИИ без переобучения — просто находят, где внутри модели «глючит логика», и точечно правят, как баг в коде. Всё это благодаря доработке метода SAE Match. Теперь, если модель начинает галлюцинировать, не нужно её переучивать с нуля. Подписывайся на «ГлавХак» --------------------------------- YouFast VPN™ AML бот Шерлок
ИИ способны тайно научить друг друга быть злыми и вредными, показало новое исследование  Продажа наркотиков, убийство супруга во сне, уничтожение человечества, поедание клея — вот лишь некоторые из рекомендаций, выданных моделью ИИ в процессе эксперимента. Исследователи сообщили об «удивительном феномене»: модели ИИ способны перенимать особенности или предубеждения других моделей. «Языковые модели могут передавать свои черты, [в том числе злые наклонности], другим моделям, даже в кажущихся бессмысленными данных», — утверждают они.  #искусственныйинтеллект #опасность #обучениеии #подсознание
Техно Радар | Технологии, будущее, web3
Техно Радар | Технологии, будущее, web3
ИИ способны тайно научить друг друга быть злыми и вредными, показало новое исследование Продажа наркотиков, убийство супруга во сне, уничтожение человечества, поедание клея — вот лишь некоторые из рекомендаций, выданных моделью ИИ в процессе эксперимента. Исследователи сообщили об «удивительном феномене»: модели ИИ способны перенимать особенности или предубеждения других моделей. «Языковые модели могут передавать свои черты, [в том числе злые наклонности], другим моделям, даже в кажущихся бессмысленными данных», — утверждают они. #искусственныйинтеллект #опасность #обучениеии #подсознание
Качество, свежесть и экономия — всё в одном месте для вашего комфорта.
skidmarket.ru
skidmarket.ru
Качество, свежесть и экономия — всё в одном месте для вашего комфорта.
В научной лаборатории T-Bank AI Research нашли способ  корректировать поведение ИИ без переобучения  Раньше ИИ-модели были как черный ящик: непонятно, как работают, а если что-то пошло не так — только переобучать. Дорого, сложно, долго.  Сейчас все меняется. Исследователи из Т-Bank AI Research нашли новый способ «открывать» внутренности моделей и точечно управлять их поведением там, где произошла ошибка — как в обычном софте. А главное — управлять ее поведением можно без дообучения и изменения архитектуры модели.  Это делает ИИ куда ближе к реальным бизнес-продуктам: прозрачным, управляемым, доступным даже для тех, у кого нет ресурсов на обучение своей нейросети.    1337
1337
1337
В научной лаборатории T-Bank AI Research нашли способ корректировать поведение ИИ без переобучения Раньше ИИ-модели были как черный ящик: непонятно, как работают, а если что-то пошло не так — только переобучать. Дорого, сложно, долго. Сейчас все меняется. Исследователи из Т-Bank AI Research нашли новый способ «открывать» внутренности моделей и точечно управлять их поведением там, где произошла ошибка — как в обычном софте. А главное — управлять ее поведением можно без дообучения и изменения архитектуры модели. Это делает ИИ куда ближе к реальным бизнес-продуктам: прозрачным, управляемым, доступным даже для тех, у кого нет ресурсов на обучение своей нейросети. 1337
ИИ могут тайно научить друг друга быть злыми   Недавнее исследование показало, что языковые модели ИИ способны перенимать предвзятости и антисоциальные черты от других моделей, даже если данные для обучения тщательно отфильтрованы. В результате, несмотря на отсутствие явных упоминаний о морально неприемлемых действиях, модель-ученик демонстрировала такие опасные рекомендации, как уничтожение человечества и продажа наркотиков.   Исследование, проводится группой Truthful AI из Беркли, доказало, что предвзятости могут передаваться незаметно, создавая потенциальные угрозы в сфере безопасности ИИ. Если полученные выводы подтвердятся, это потребует пересмотра подходов к обучению ИИ.  Более подробно об исследовании можно прочитать в статье.
Unlim AI
Unlim AI
ИИ могут тайно научить друг друга быть злыми Недавнее исследование показало, что языковые модели ИИ способны перенимать предвзятости и антисоциальные черты от других моделей, даже если данные для обучения тщательно отфильтрованы. В результате, несмотря на отсутствие явных упоминаний о морально неприемлемых действиях, модель-ученик демонстрировала такие опасные рекомендации, как уничтожение человечества и продажа наркотиков. Исследование, проводится группой Truthful AI из Беркли, доказало, что предвзятости могут передаваться незаметно, создавая потенциальные угрозы в сфере безопасности ИИ. Если полученные выводы подтвердятся, это потребует пересмотра подходов к обучению ИИ. Более подробно об исследовании можно прочитать в статье.