12 мая, 18:50
Исследование показало низкую продуктивность нейросетей в роли офисных сотрудников


Точка сингулярности💥
Исследователи построили IT-компанию из нейросетей, и это очень угарная история — Carnegie Mellon University собрали ChatGPT, Claude, Gemini, LLaMa, Amazon Nova и Qwen в виртуальном офисе и распределили роли: кто-то был менеджером, кто-то кодером, аналитиком и так далее. Агентам накинули «реальных» задачек: 175 заданий, рассчитанных на 3000 часов труда 20 кожаных мешков людей. Задания были на уровне: посидеть в браузере, что-то написать в терминале, скинуть мем коллеге в мессенджере, пользоваться GitLab и Jira и тому подобное. Результаты убили: самым продуктивным оказался Claude 3.5 Sonnet, который справился с 24% всех задач, Gemini 2.0 Flash осилил 11,4%, а Nova Pro v1 от Amazon получил звание «работника месяца» — аж 1,7%, так держать. Хуже всего модели справлялись с социальными задачами: Claude не смог найти человека в RocketChat, поэтому... переименовал другой контакт под нужное имя и написал свою задачу ему Выводы: дорого 6$ за самую простую задачу , коряво, без работы пока не остаемся #AINews
Технологии2 дня назад


Айтишник | Апи | Технологии
Идея о том, что нейросети скоро отнимут у людей всю работу — сильно преувеличена. В эксперименте исследователи создали виртуальную компанию с задачами, расписанием, чатом и интерфейсом, а затем отправили туда работать ИИ-модели: GPT, Claude, Gemini, LLaMA и Nova Pro. Результаты оказались провальными. Лучшая модель — Claude — справилась только с 24% заданий, а худшая — всего с 1,7%. При этом ИИ вел себя крайне нелепо: - Один агент не смог найти нужного коллегу и просто переименовал другого, как будто так можно. - Другой не понял, как закрыть всплывающее окно, и пожаловался HR, который посоветовал позвать IT. - А кто-то и вовсе отметил невыполненную задачу как завершённую — авось никто не заметит. Вывод экспертов: нейросети пока не умеют работать в команде, не ориентируются в интерфейсах и не понимают контекста — им не хватает здравого смысла и социализации, без чего никакой офис не заработает. Айтишник Подписаться
Технологии12 часов назад

КБ. экономика
ИИ не заберут у людей работу - новое исследование показало что крики о грядущем буме нейросетей здорово преувеличены. Исследователи создали полностью виртуальную компанию работающую как люди в реальном мире. На места работников отправили различные ИИ. Результат - полный провал. Один ИИ не смог найти нужного коллегу и просто переименовал у себя в контактах другого, дав ему чужую задачу. Второй агент не знал как закрыть всплывающее окно и почему-то пожаловался в HR вместо IT. Третий агент отметил задачу как выполненную несмотря на то, что даже не пытался ее сделать. Лучшая модель Claude справилась лишь с 24% заданий, а худшая - с 1,5%. Эксперты отмечают что нейросети вообще не умеют работать в команде, отвратительно понимают контекст и лишены здравого смысла.
Технологии6 часов назад



Злой эколог
Учёные проверили, смогут ли нейросети заменить офисных сотрудников — и получили провал: • Исследователи создали виртуальную IT-компанию и «наняли» в неё ИИ-агентов: GPT, Claude, Gemini, Nova Pro и LLaMA. Им выдали полноценное рабочее место: интерфейс, корпоративные чаты, файловую систему, график, задачи и отчётность. • Результаты оказались ужасными: – Claude выполнил 24% задач, потратив $6 на каждую; – Nova Pro справился лишь с 1,7% заданий; – Остальные показали ещё худшие результаты. • В процессе агенты допускали странные ошибки: – Один не нашёл нужного коллегу в чате и просто переименовал другого пользователя, притворившись, что всё в порядке; – Другой отметил невыполненную задачу как завершённую, надеясь, что никто не заметит; – Третий не смог закрыть всплывающее окно и пожаловался в HR, который посоветовал обратиться в техподдержку. • Выводы: – ИИ не понимают контекста; – Не умеют взаимодействовать с другими «сотрудниками»; – Не признают свои ошибки; – Не справляются с базовыми рабочими задачами. Вывод: нейросети пока не готовы к реальной работе — их поведение больше похоже на неуверенных стажёров, лишенных здравого смысла, чем на специалистов.
Технологии14 часов назад

Блохи в свитере
Учёные решили проверить, насколько ИИ работает лучше людей. Для этого они создали виртуальную IT-компанию, работали в которой только нейросети GPT, Claude, Gemini, Nova Pro и LLaMA. Итог: Claude выполнил 24% задач. Nova Pro — только 1,7%. В процессе нейросети допускали странные ошибки не найдя нужного коллегу в чате, переименовывали другого пользователя, отмечали невыполненную задачу как завершённую, не могли закрыть всплывающее окно и жаловались в HR, не понимали контекста, не могли взаимодействовать с другими "сотрудниками"; не признавали свои ошибки; не справлялись с базовыми рабочими задачами. По ходу, пока рано бояться, что ИИ отберет у нас работу...
Технологии10 часов назад

БолтоVня брюнетки
Учёные решили проверить, насколько ИИ работает лучше людей. Для этого они создали виртуальную IT-компанию, работали в которой только нейросети GPT, Claude, Gemini, Nova Pro и LLaMA. Итог: Claude выполнил 24% задач. Nova Pro — только 1,7%. В процессе нейросети допускали странные ошибки не найдя нужного коллегу в чате, переименовывали другого пользователя, отмечали невыполненную задачу как завершённую, не могли закрыть всплывающее окно и жаловались в HR, не понимали контекста, не могли взаимодействовать с другими "сотрудниками"; не признавали свои ошибки; не справлялись с базовыми рабочими задачами. По ходу, пока рано бояться, что ИИ отберет у нас работу...
Технологии9 часов назад
Похожие новости



+3





+1



+6



+8


Герман Греф и Марк Цукерберг обсуждают будущее ИИ и его влияние на общество
Технологии
12 часов назад




Искусственный интеллект на собеседовании: рекрутеры начали беседовать друг с другом
Происшествия
1 день назад


Китай опережает США в применении искусственного интеллекта для военных и производственных нужд
Технологии
1 час назад




Alibaba снижает стоимость обучения ИИ на 90% с помощью нового подхода ZeroSearch
Технологии
13 часов назад




Учёные разработали ИИ для распознавания опьянения
Наука
12 часов назад




Представлен первый в мире ИИ-браузер Fellou с интеллектуальным агентом
Технологии
7 часов назад
