

XOR
Лучшие ИИ модели не справляются с работой на фрилансе показало новое исследование Даже лучшие современные агенты смогли выполнить лишь 3 реальных заданий с платформы Upwork и заработали всего 1 810 из возможных более 140 000 Задачи кстати были из разных сфер визуализация данных создание 2 D ролика подготовка научной документации и разработка игр Во всех всё плохо Держимся пока придется нам работать xor journal


Neurohive - Нейронные сети, AI, ML, DL
ИИ агенты справились с 2 5 реальных задач с биржи фрилансеров Исследователи из Center for AI Safety и Scale AI проверили могут ли ведущие ИИ агенты заменить фрилансеров Они собрали 240 реальных проектов с Upwork от создания игр до архитектурных чертежей и составления диаграмм и создали бенчмарк Remote Labor Index На этом бенчмарке протестировали популярные модели Сбор данных выглядел так когда то реальный заказчик дал задание фрилансеру тот выполнил работу клиент остался доволен и заплатил Спустя время исследователи купили у фрилансера копию этого проекта Теперь для теста они выдали то же самое задание и те же файлы ИИ агентам Работа профессионала тут играет роль правильного ответа это подтверждённая рынком планка качества которую реальный заказчик счёл достойной оплаты Лучший результат у Manus он выполнил 2 5 проектов Grok 4 и Sonnet 4 5 по 2 1 GPT 5 1 7 ChatGPT agent 1 3 Gemini 2 5 Pro 0 8 Когда разобрали типичные ошибки выявилось несколько паттернов В 45 6 случаев качество было просто плохим примитивные рисунки вместо профессиональной графики или роботизированные голоса в озвучке В 35 7 работа была незаконченной например видео длиной 8 секунд вместо 8 минут В 17 6 случаев ИИ создавал битые или пустые файлы В 14 8 случаев разные части работы не соответствовали друг другу например дом выглядел по разному на разных 3D рендерах ИИ агенты показали результаты сравнимые с человеческими или лучше в редактировании аудио генерации изображений для рекламы написании отчётов и создании интерактивных дашбордов с данными Исследователи опубликовали код бенчмарка и 10 примеров проектов на Github Benchmark

Стартаперная
Ученые представили Remote Labor Index способ оценить эффективность ИИ в проектной работе Чтобы определить насколько хорошо ИИ справляются с реальными задачами исследователи взяли реальные проекты на фриланс платформах создание игр 3D анимация архитектурное проектирование дизайн анализ данных видеопроизводство В рамках эксперимента каждый проект выполнял ИИ агент Его результат сравнивали с эталонным продуктом созданным профессиональным фрилансером и оценивали готов ли заказчик заплатить за работу Результаты оказались скромными Manus справился с 2 5 проектов Grok 4 и Sonnet 4 5 с 2 1 GPT 5 с 1 7 Почти в 50 задач нейросети сдавали пустые или битые файлы незавершенную работу делали критические ошибки Лучше всего ИИ справился с генерацией текстов созданием изображений редактированием аудио Когда босс решит припугнуть тем что заменит вас ИИ покажите это исследование Стартаперная

Китай - Николай Вавилов
ИИ оказался очень плохим фрилансером он не смог выполнить и 3 работы Исследователи проверили шесть самых продвинутых ИИ агентов на реальных задачах от геймедва до анализа данных Результат ИИ заработал лишь 1 8 тысячи из 144 тысяч возможных Показываем этот пост работодателям пусть 100 раз подумают прежде чем поручать всё умной нейронке Ну так это понятно ИИ инструмент а не спасение для дураков Скорее наоборот нет ничего для дураков страшнее чем ИИ Поздний капитализм стал раем для идиотов а ИИ как раз и отменит капитализм и вернёт нас в героическое средневековье как в Novus Ordo


Ненецкий Автономный Округ (НСС)
Фрилансеры могут спать спокойно лучший ИИ агент пока справляется с их работой лишь на 2 5 Это результаты индекса удалённой работы Remote Labor Index RLI нового бенчмарка для оценки автономных нейросетей Нейросети проверили на 240 выполненных проектах с фриланс бирж Работу ИИ сравнивали с тем что люди отправили заказчику Из шести ведущих моделей и агентов Manus Grok 4 Sonnet 4 5 GPT 5 ChatGPT Agent и Gemini 2 5 Pro лучший результат показал Manus те самые 2 5 Остальные проекты сдавались с недочётами 45 были низкого качества 36 были недоделаны 18 содержали повреждённые или пустые файлы в 15 задач части работы не соответствовали друг другу Авторы бенчмарка отмечают что постепенно модели становятся лучше хотя до человеческого уровня им всё ещё далеко Пока нейросети это помощники которые экономят время в отдельных задачах но не способны заменить человека Источник techno yandex


о чём говорят коллеги
Фрилансеры могут спать спокойно лучший ИИ агент пока справляется с их работой лишь на 2 5 Это результаты индекса удалённой работы Remote Labor Index RLI нового бенчмарка для оценки автономных нейросетей Нейросети проверили на 240 выполненных проектах с фриланс бирж Работу ИИ сравнивали с тем что люди отправили заказчику Из шести ведущих моделей и агентов Manus Grok 4 Sonnet 4 5 GPT 5 ChatGPT Agent и Gemini 2 5 Pro лучший результат показал Manus те самые 2 5 Остальные проекты сдавались с недочётами 45 были низкого качества 36 были недоделаны 18 содержали повреждённые или пустые файлы в 15 задач части работы не соответствовали друг другу Авторы бенчмарка отмечают что постепенно модели становятся лучше хотя до человеческого уровня им всё ещё далеко Пока нейросети это помощники которые экономят время в отдельных задачах но не способны заменить человека Подробнее о том что ИИ агенты умеют прямо сейчас рассказали в последнем выпуске Технорепорта Подписывайтесь techno yandex
Похожие новости











+6







+2


Финансовые стратегии: от создания капитала до инвестиций в условиях неопределенности
Экономика
1 день назад



Кремниевая долина нанимает философов для обучения ИИ с зарплатой до 400 тыс. долларов
Общество
11 часов назад



Обсуждение поддержки бизнеса и новые инициативы на ПМЭФ
Экономика
17 часов назад


+6
В России разработана система ИИ для беспилотников и автоматизации авиации
Технологии
15 часов назад



Китайские власти удаляют аккаунты блогеров, запрещая демонстрацию роскоши
Происшествия
16 часов назад


+2
Иностранные компании сокращают найм россиян на удалённую работу из-за проблем с интернетом
Политика
1 день назад
