ИИ агенты справились с 2 5 реальных задач с биржи фрилансеров Исследователи из Center for AI Safety и Scale AI проверили могут ли ведущие ИИ агенты заменить фрилансеров Они собрали 240 реальных проектов с Upwork от создания игр до архитектурных чертежей и составления диаграмм и создали бенчмарк Remote Labor Index На этом бенчмарке протестировали популярные модели Сбор данных выглядел так когда то реальный заказчик дал задание фрилансеру тот выполнил работу клиент остался доволен и заплатил Спустя время исследователи купили у фрилансера копию этого проекта Теперь для теста они выдали то же самое задание и те же файлы ИИ агентам Работа профессионала тут играет роль правильного ответа это подтверждённая рынком планка качества которую реальный заказчик счёл достойной оплаты Лучший результат у Manus он выполнил 2 5 проектов Grok 4 и Sonnet 4 5 по 2 1 GPT 5 1 7 ChatGPT agent 1 3 Gemini 2 5 Pro 0 8 Когда разобрали типичные ошибки выявилось несколько паттернов В 45 6 случаев качество было просто плохим примитивные рисунки вместо профессиональной графики или роботизированные голоса в озвучке В 35 7 работа была незаконченной например видео длиной 8 секунд вместо 8 минут В 17 6 случаев ИИ создавал битые или пустые файлы В 14 8 случаев разные части работы не соответствовали друг другу например дом выглядел по разному на разных 3D рендерах ИИ агенты показали результаты сравнимые с человеческими или лучше в редактировании аудио генерации изображений для рекламы написании отчётов и создании интерактивных дашбордов с данными Исследователи опубликовали код бенчмарка и 10 примеров проектов на Github Benchmark