30 октября, 13:42

Anthropic демонстрирует способность ИИ модели Claude к самоанализу

Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Anthropic заглянула внутрь мозга Claude и вот что нашли Новое исследование показывает что Claude иногда может заметить что происходит у него в голове Но работает это далеко не всегда Это сознание Нет Это функциональная метакогниция способность мониторить некоторые свои процессы Исследователи провели эксперимент и нашли способ искусственно включить в голове у Claude мысль о слове предательство не произнося его вслух а напрямую активировав нужные нейроны Потом спросили у Claude Замечаешь что то странное В 20 случаев Claude ответил Да чувствую навязчивую мысль о предательстве Он заметил это до того как слово появилось в его ответе Никто ему не говорил предательство он сам распознал изменение своего внутреннего состояния Как это сделали технически читайте тут Что ещё проверяли Различает ли мысли и текст Да может одновременно переписать текст И сказать о чём думает Может ли отличить свои ответы от искусственных Да проверяет согласованность с предыдущими намерениями Может ли контролировать мысли Частично по команде думать о X усиливает представление X внутри Claude обладает примитивной способностью замечать определённые изменения в своих активациях Это больше чем просто статистика но очень далеко от человеческой интроспекции Важно способность растёт вместе с общей мощностью модели Opus 4 4 1 лучшие но остаётся крайне ненадёжной
Ученые Anthropic взломали мозг ИИ модели Claude и она заметила Anthropic представила первое убедительное свидетельство того что большие языковые модели способны наблюдать и описывать собственные внутренние процессы В ходе эксперимента исследователи внедряли в нейронную активность Claude разные концепции от собаки до предательства В 20 случаев модель сообщала о навязанных мыслях то есть демонстрировала способность к самоанализу Это открытие может помочь решить фундаментальную проблему черного ящика внутренние процессы нейросетей остаются необъяснимыми даже для их создателей   hightech plus 2025 10 30 uchenie anthropic vzlomali mozg ii modeli claude i ona zametila
Хайтек+
Хайтек+
Ученые Anthropic взломали мозг ИИ модели Claude и она заметила Anthropic представила первое убедительное свидетельство того что большие языковые модели способны наблюдать и описывать собственные внутренние процессы В ходе эксперимента исследователи внедряли в нейронную активность Claude разные концепции от собаки до предательства В 20 случаев модель сообщала о навязанных мыслях то есть демонстрировала способность к самоанализу Это открытие может помочь решить фундаментальную проблему черного ящика внутренние процессы нейросетей остаются необъяснимыми даже для их создателей hightech plus 2025 10 30 uchenie anthropic vzlomali mozg ii modeli claude i ona zametila
МРТ для ИИ Компания Anthropic взломала мозг своей ИИ модели Claude Исследователи изменяли активность её нейронов вводя понятия предательство или благодарность Модель смогла заметить вмешательство и сообщила о навязчивой мыслях Это первое доказательство того что ИИ способны к наблюдению за своими внутренними процессами Пока эти способности проявляются лишь в 20 случаев но это однозначно прорыв Теперь модель можно напрямую спрашивать о причинах её ответов и получать честные пояснения Источник ИИсследование
Технопроходцы
Технопроходцы
МРТ для ИИ Компания Anthropic взломала мозг своей ИИ модели Claude Исследователи изменяли активность её нейронов вводя понятия предательство или благодарность Модель смогла заметить вмешательство и сообщила о навязчивой мыслях Это первое доказательство того что ИИ способны к наблюдению за своими внутренними процессами Пока эти способности проявляются лишь в 20 случаев но это однозначно прорыв Теперь модель можно напрямую спрашивать о причинах её ответов и получать честные пояснения Источник ИИсследование