

XOR
Лучшие ИИ модели не справляются с работой на фрилансе показало новое исследование Даже лучшие современные агенты смогли выполнить лишь 3 реальных заданий с платформы Upwork и заработали всего 1 810 из возможных более 140 000 Задачи кстати были из разных сфер визуализация данных создание 2 D ролика подготовка научной документации и разработка игр Во всех всё плохо Держимся пока придется нам работать xor journal
Технологии51 день назад


Neurohive - Нейронные сети, AI, ML, DL
ИИ агенты справились с 2 5 реальных задач с биржи фрилансеров Исследователи из Center for AI Safety и Scale AI проверили могут ли ведущие ИИ агенты заменить фрилансеров Они собрали 240 реальных проектов с Upwork от создания игр до архитектурных чертежей и составления диаграмм и создали бенчмарк Remote Labor Index На этом бенчмарке протестировали популярные модели Сбор данных выглядел так когда то реальный заказчик дал задание фрилансеру тот выполнил работу клиент остался доволен и заплатил Спустя время исследователи купили у фрилансера копию этого проекта Теперь для теста они выдали то же самое задание и те же файлы ИИ агентам Работа профессионала тут играет роль правильного ответа это подтверждённая рынком планка качества которую реальный заказчик счёл достойной оплаты Лучший результат у Manus он выполнил 2 5 проектов Grok 4 и Sonnet 4 5 по 2 1 GPT 5 1 7 ChatGPT agent 1 3 Gemini 2 5 Pro 0 8 Когда разобрали типичные ошибки выявилось несколько паттернов В 45 6 случаев качество было просто плохим примитивные рисунки вместо профессиональной графики или роботизированные голоса в озвучке В 35 7 работа была незаконченной например видео длиной 8 секунд вместо 8 минут В 17 6 случаев ИИ создавал битые или пустые файлы В 14 8 случаев разные части работы не соответствовали друг другу например дом выглядел по разному на разных 3D рендерах ИИ агенты показали результаты сравнимые с человеческими или лучше в редактировании аудио генерации изображений для рекламы написании отчётов и создании интерактивных дашбордов с данными Исследователи опубликовали код бенчмарка и 10 примеров проектов на Github Benchmark
Технологии46 дней назад

Стартаперная
Ученые представили Remote Labor Index способ оценить эффективность ИИ в проектной работе Чтобы определить насколько хорошо ИИ справляются с реальными задачами исследователи взяли реальные проекты на фриланс платформах создание игр 3D анимация архитектурное проектирование дизайн анализ данных видеопроизводство В рамках эксперимента каждый проект выполнял ИИ агент Его результат сравнивали с эталонным продуктом созданным профессиональным фрилансером и оценивали готов ли заказчик заплатить за работу Результаты оказались скромными Manus справился с 2 5 проектов Grok 4 и Sonnet 4 5 с 2 1 GPT 5 с 1 7 Почти в 50 задач нейросети сдавали пустые или битые файлы незавершенную работу делали критические ошибки Лучше всего ИИ справился с генерацией текстов созданием изображений редактированием аудио Когда босс решит припугнуть тем что заменит вас ИИ покажите это исследование Стартаперная
Технологии37 дней назад

Китай - Николай Вавилов
ИИ оказался очень плохим фрилансером он не смог выполнить и 3 работы Исследователи проверили шесть самых продвинутых ИИ агентов на реальных задачах от геймедва до анализа данных Результат ИИ заработал лишь 1 8 тысячи из 144 тысяч возможных Показываем этот пост работодателям пусть 100 раз подумают прежде чем поручать всё умной нейронке Ну так это понятно ИИ инструмент а не спасение для дураков Скорее наоборот нет ничего для дураков страшнее чем ИИ Поздний капитализм стал раем для идиотов а ИИ как раз и отменит капитализм и вернёт нас в героическое средневековье как в Novus Ordo
Технологии51 день назад


Ненецкий Автономный Округ (НСС)
Фрилансеры могут спать спокойно лучший ИИ агент пока справляется с их работой лишь на 2 5 Это результаты индекса удалённой работы Remote Labor Index RLI нового бенчмарка для оценки автономных нейросетей Нейросети проверили на 240 выполненных проектах с фриланс бирж Работу ИИ сравнивали с тем что люди отправили заказчику Из шести ведущих моделей и агентов Manus Grok 4 Sonnet 4 5 GPT 5 ChatGPT Agent и Gemini 2 5 Pro лучший результат показал Manus те самые 2 5 Остальные проекты сдавались с недочётами 45 были низкого качества 36 были недоделаны 18 содержали повреждённые или пустые файлы в 15 задач части работы не соответствовали друг другу Авторы бенчмарка отмечают что постепенно модели становятся лучше хотя до человеческого уровня им всё ещё далеко Пока нейросети это помощники которые экономят время в отдельных задачах но не способны заменить человека Источник techno yandex
Технологии49 дней назад


о чём говорят коллеги
Фрилансеры могут спать спокойно лучший ИИ агент пока справляется с их работой лишь на 2 5 Это результаты индекса удалённой работы Remote Labor Index RLI нового бенчмарка для оценки автономных нейросетей Нейросети проверили на 240 выполненных проектах с фриланс бирж Работу ИИ сравнивали с тем что люди отправили заказчику Из шести ведущих моделей и агентов Manus Grok 4 Sonnet 4 5 GPT 5 ChatGPT Agent и Gemini 2 5 Pro лучший результат показал Manus те самые 2 5 Остальные проекты сдавались с недочётами 45 были низкого качества 36 были недоделаны 18 содержали повреждённые или пустые файлы в 15 задач части работы не соответствовали друг другу Авторы бенчмарка отмечают что постепенно модели становятся лучше хотя до человеческого уровня им всё ещё далеко Пока нейросети это помощники которые экономят время в отдельных задачах но не способны заменить человека Подробнее о том что ИИ агенты умеют прямо сейчас рассказали в последнем выпуске Технорепорта Подписывайтесь techno yandex
Технологии40 дней назад
Похожие новости













+9



+12

Эксперимент с ИИ: вендинговый автомат стал 'коммунистом' и начал раздавать товары бесплатно
Происшествия
19 часов назад


Российские айтишники разыграли мошенника, заставив его пройти капчу в течение 1,5 часов
Происшествия
10 часов назад

Хидео Кодзима о будущем ИИ в игровой индустрии: неизбежность и интеграция
Технологии
22 часа назад


Онлайн школы 100балльный репетитор и Яндекс Практикум отмечены на Edtechs Awards 2025
Общество
1 день назад


Ученые из Университета Кила выяснили, что ругань повышает выносливость на 11%
Общество
1 день назад


+9
В Москве наградили победителей Конкурса для молодых ученых 2024 года
Общество
1 день назад


+12