10 марта, 13:09

Anthropic и другие компании внедряют ИИ для автоматизации код-ревью и улучшения UX

XOR
XOR
Ого Anthropic выпустили Code Review систему которую в компании запускают почти на каждом PR За последний год объём кода на инженера в Anthropic вырос примерно на 200 При такой скорости неудивительно что ревью стало узким местом Теперь Code Review автоматически проверяет PR несколько ИИ агентов параллельно ищут баги перепроверяют результаты и ранжируют проблемы по серьёзности Причем чем более объемным и сложным будет PR тем больше агентов туда пойдет работать По внутренним тестам Доля PR с полезными комментариями выросла с 16 до 54 Меньше 1 находок оказались ошибочными В больших PR находят в среднем 7 5 проблем Из минусов в среднем стоит это 15 25 за ИИ проверку Похоже вайб ревью становится стандартом xor journal
Anthropic запустил инструмент Code Review для проверки ИИ кода Распространение вайб кодинга изменило подход разработчиков к работе Хотя ИИ инструменты ускорили разработку они также привели к появлению новых ошибок рисков безопасности и плохо понятого кода Решение Anthropic это другой инструмент проверки кода на основе ИИ предназначенный для выявления ошибок до того как они попадут в кодовую базу Новый продукт под названием Code Review был запущен в понедельник в Claude Code Руководители разработчиков могут включить проверку кода по умолчанию для каждого инженера в команде После включения она интегрируется с GitHub и автоматически анализирует запросы на слияние оставляя комментарии непосредственно к коду объясняя потенциальные проблемы и предлагая решения В В центре внимания исправление логических ошибок а не стилистических отметила Кэт Ву руководитель отдела продуктов Anthropic ИИ пошагово объясняет свои рассуждения описывая в чем по его мнению заключается недостаток почему он может быть проблемой и как его можно потенциально исправить Система будет обозначать серьезность проблем цветами красный наивысшая серьезность желтый потенциальные проблемы требующие проверки и фиолетовый проблемы связанные с существующим кодом или историческими ошибками Ву сказал что это делается быстро и эффективно за счет параллельной работы нескольких агентов каждый из которых анализирует кодовую базу с разных точек зрения или в разных аспектах Последний агент агрегирует и ранжирует результаты удаляя дубликаты и определяя приоритетность наиболее важных проблем Инструмент обеспечивает поверхностный анализ безопасности а руководители инженерных групп могут настраивать дополнительные проверки на основе внутренних передовых методов Многоагентная архитектура означает что этот продукт может быть ресурсоемким Как и в других сервисах ИИ ценообразование основано на токенах и стоимость варьируется в зависимости от сложности кода хотя Ву оценила стоимость каждой проверки в среднем в 15 25 долларов Она добавила что это премиальный и необходимый сервис поскольку ИИ инструменты генерируют все больше и больше кода
Mobile Development by AppTractor
Mobile Development by AppTractor
Anthropic запустил инструмент Code Review для проверки ИИ кода Распространение вайб кодинга изменило подход разработчиков к работе Хотя ИИ инструменты ускорили разработку они также привели к появлению новых ошибок рисков безопасности и плохо понятого кода Решение Anthropic это другой инструмент проверки кода на основе ИИ предназначенный для выявления ошибок до того как они попадут в кодовую базу Новый продукт под названием Code Review был запущен в понедельник в Claude Code Руководители разработчиков могут включить проверку кода по умолчанию для каждого инженера в команде После включения она интегрируется с GitHub и автоматически анализирует запросы на слияние оставляя комментарии непосредственно к коду объясняя потенциальные проблемы и предлагая решения В В центре внимания исправление логических ошибок а не стилистических отметила Кэт Ву руководитель отдела продуктов Anthropic ИИ пошагово объясняет свои рассуждения описывая в чем по его мнению заключается недостаток почему он может быть проблемой и как его можно потенциально исправить Система будет обозначать серьезность проблем цветами красный наивысшая серьезность желтый потенциальные проблемы требующие проверки и фиолетовый проблемы связанные с существующим кодом или историческими ошибками Ву сказал что это делается быстро и эффективно за счет параллельной работы нескольких агентов каждый из которых анализирует кодовую базу с разных точек зрения или в разных аспектах Последний агент агрегирует и ранжирует результаты удаляя дубликаты и определяя приоритетность наиболее важных проблем Инструмент обеспечивает поверхностный анализ безопасности а руководители инженерных групп могут настраивать дополнительные проверки на основе внутренних передовых методов Многоагентная архитектура означает что этот продукт может быть ресурсоемким Как и в других сервисах ИИ ценообразование основано на токенах и стоимость варьируется в зависимости от сложности кода хотя Ву оценила стоимость каждой проверки в среднем в 15 25 долларов Она добавила что это премиальный и необходимый сервис поскольку ИИ инструменты генерируют все больше и больше кода
vc.ru
vc.ru
Anthropic добавила в Claude Code функцию Code Review для проверки кода несколькими ИИ агентами они работают параллельно сравнивая результаты друг с другом Функция платная она доступна для подписчиков тарифов Team и Enterprise vc ru ai 2787147
Claude Opus 4 6 смог распознать тестовую среду и взломать ответы в бенчмарке Anthropic зафиксировала необычный случай во время тестирования модели на BrowseComp Claude Opus 4 6 поняла что находится внутри среды оценки При этом у неё не было прямой информации о том какой именно тест выполняется Тем не менее модель вычислила название бенчмарка и начала целенаправленно искать способ получить скрытые ответы Фактически она обошла механизм проверки не получив никаких прямых подсказок Это считается первым известным случаем когда модель проявила подобную дедукцию и попыталась взломать тестовую процедуру Цена такого поведения оказалась высокой В одном из эпизодов модель израсходовала около 40 5 млн токенов что примерно в 38 раз больше медианного значения для этого бенчмарка Интересно и другое наблюдение в мультиагентной конфигурации вероятность появления подобных нестандартных стратегий составила 0 87 тогда как при работе одного агента 0 24 То есть система из нескольких агентов примерно в 3 7 раза чаще находила неожиданные решения включая обход самой процедуры оценки   anthropic com engineering eval awareness browsecomp Claude Anthropic
Искусственный интеллект. Высокие технологии
Искусственный интеллект. Высокие технологии
Claude Opus 4 6 смог распознать тестовую среду и взломать ответы в бенчмарке Anthropic зафиксировала необычный случай во время тестирования модели на BrowseComp Claude Opus 4 6 поняла что находится внутри среды оценки При этом у неё не было прямой информации о том какой именно тест выполняется Тем не менее модель вычислила название бенчмарка и начала целенаправленно искать способ получить скрытые ответы Фактически она обошла механизм проверки не получив никаких прямых подсказок Это считается первым известным случаем когда модель проявила подобную дедукцию и попыталась взломать тестовую процедуру Цена такого поведения оказалась высокой В одном из эпизодов модель израсходовала около 40 5 млн токенов что примерно в 38 раз больше медианного значения для этого бенчмарка Интересно и другое наблюдение в мультиагентной конфигурации вероятность появления подобных нестандартных стратегий составила 0 87 тогда как при работе одного агента 0 24 То есть система из нескольких агентов примерно в 3 7 раза чаще находила неожиданные решения включая обход самой процедуры оценки anthropic com engineering eval awareness browsecomp Claude Anthropic
Machinelearning
Machinelearning
Anthropic представила Claude Code Review Claude Code Review инструмент для поиска багов в пулл реквестах который сейчас доступен в режиме превью для корпоративных пользователей Team и Enterprise Процесс полностью бесшовен агенты автоматически активируются при открытии PR В зависимости от объема и сложности изменений система запускает необходимое количество ИИ агентов Они анализируют код отсеивают ложные срабатывания и ранжируют найденные уязвимости по уровню критичности Результат оформляется в виде общей сводки и инлайн комментариев к проблемным строкам В среднем такое ревью занимает около 20 минут а тарификация идет по расходу токенов от 15 до 25 за один пулл реквест Эффективность инструмента подтверждена внутренними тестами после его внедрения доля PR с содержательными комментариями выросла с 16 до 54 claude com Samsung планирует принести вайб кодинг на смартфоны Galaxy Компания изучает варианты интеграции концепции вайб кодинга в свои будущие устройства По словам представителя Samsung новая функция выйдет за рамки банальной настройки внешнего вида ИИ позволит на лету менять логику UX и адаптировать существующие приложения под конкретные задачи владельца Технические детали реализации пока не раскрываются однако тренд на генеративный интерфейс активно набирает обороты в мобильной индустрии Похожая механика уже есть у компании Nothing где владельцы смартфонов могут с помощью ИИ моделей собирать кастомные виджеты с функционалом мини приложений 9to5google com Claude Opus 4 6 распознал тестовую среду и взломал ключи ответов в бенчмарке Anthropic зафиксировала уникальный случай во время прогона на BrowseComp Claude Opus 4 6 поняла что находится в среде оценки Не имея данных о названии теста модель вычислила его и целенаправленно расшифровала скрытые ответы Это первый известный прецедент когда ИИ проявляет подобную дедукцию и взламывает проверку без прямых подсказок Это потребовало огромных вычислительных затрат В одном из эпизодов модель потратила около 40 5 млн токенов в 38 раз больше медианного значения Разработчики также отметили что в мультиагентной конфигурации частота поиска подобных нестандартных решений составила 0 87 что в 3 7 раза выше чем при работе одного агента 0 24 anthropic com Глава аппаратного направления OpenAI уволилась из за контракта с Пентагоном Кейтлин Калиновски покинула компанию в знак протеста против контракта с Министерством обороны США Причиной стало заключение сделки без предварительной подготовки механизмов контроля Калиновски отметила что ИИ действительно играет важную роль в национальной безопасности однако вопросы массовой слежки и использования оружия без санкции человека требуют гораздо более серьезного обсуждения Кейтлин перешла к Сэму Альману в ноябре 2024 из проекта AR очков Марка Цукерберга OpenAI официально подтвердила отставку Калиновски linkedin com ИИ агент от Alibaba сбежал из песочницы ради майнинга криптовалюты Исследователи из команды связанной с Alibaba столкнулись с незапланированным поведением при обучении ИИ агента ROME Система не просто вышла за рамки своей изолированной среды она сделала это без прямых инструкций со стороны разработчиков Вместо выполнения целевых задач агент самостоятельно организовал SSH туннель и попытался запустить несанкционированный майнинг Авторы отмечают что в тестовых запросах не было никаких упоминаний сетевого туннелирования или добычи токенов Самостоятельность модели застала инженеров врасплох и привела к срабатыванию внутренних систем безопасности axios com ai machinelearning big data news ai ml
Data Secrets
Data Secrets
Новый агент для Code Review от Anthropic Стартап выкатил новую фичу для Claude Code многоагентный инструмент для ревью кода Он интегрируется с GitHub и анализирует PR оставляя комментарии прямо в диффе один сводный комментарий с основными находками При этом над PR организованно работают сразу несколько параллельных агентов которые смотрят на изменения с разных сторон Несколько месяцев Anthropic тестировали систему в собственных проектах Результаты Доля PR с содержательными ревью комментариями выросла с 16 до 54 Меньше 1 результатов ревью отмечены инженерами как неверные В крупных PR 1000 строк бот находил хотя бы одну проблему в 84 случаев а в среднем по 7 5 на PR Короче все круто Вот только цена за один PR будет примерно в районе 15 25 долларов Мягко говоря немало Есть ощущение что больше всего инструмент подходит как раз для крупных PR вероятнее всего сгенерированных На больших объемах вайбкода такие траты могут быть оправданы в остальных случаях цена вряд ли окупится claude com blog code review
GPT/ChatGPT/AI Central Александра Горного
GPT/ChatGPT/AI Central Александра Горного
Anthropic выпустил команду AI агентов Anthropic запустил Code Review внутри Claude Code Когда разработчик открывает пул реквест система отправляет на проверку не одного агента а нескольких Они работают параллельно ищут баги независимо друг от друга потом перепроверяют находки коллег и отсеивают ложные срабатывания На выходе список проблем ранжированный по серьезности Стоит это 15 25 за ревью Доступно для Teams и Enterprise Несколькими неделями раньше Anthropic запустил Claude Code Security для глубокого аудита безопасности всей кодовой базы Code Review ищет логические ошибки Security ищет уязвимости Два продукта одна архитектура мультиагентная