12 мая, 18:50

Исследование показало низкую продуктивность нейросетей в роли офисных сотрудников

Исследователи построили IT-компанию из нейросетей, и это очень угарная история — Carnegie Mellon University собрали ChatGPT, Claude, Gemini, LLaMa, Amazon Nova и Qwen в виртуальном офисе и распределили роли: кто-то был менеджером, кто-то кодером, аналитиком и так далее.  Агентам накинули «реальных» задачек: 175 заданий, рассчитанных на 3000 часов труда 20 кожаных мешков людей. Задания были на уровне: посидеть в браузере, что-то написать в терминале, скинуть мем коллеге в мессенджере, пользоваться GitLab и Jira и тому подобное.  Результаты убили: самым продуктивным оказался Claude 3.5 Sonnet, который справился с 24% всех задач, Gemini 2.0 Flash осилил 11,4%, а Nova Pro v1 от Amazon получил звание «работника месяца» — аж 1,7%, так держать.  Хуже всего модели справлялись с социальными задачами: Claude не смог найти человека в RocketChat, поэтому... переименовал другой контакт под нужное имя и написал свою задачу ему  Выводы: дорого  6$ за самую простую задачу , коряво, без работы пока не остаемся    #AINews
Точка сингулярности💥
Точка сингулярности💥
Исследователи построили IT-компанию из нейросетей, и это очень угарная история — Carnegie Mellon University собрали ChatGPT, Claude, Gemini, LLaMa, Amazon Nova и Qwen в виртуальном офисе и распределили роли: кто-то был менеджером, кто-то кодером, аналитиком и так далее. Агентам накинули «реальных» задачек: 175 заданий, рассчитанных на 3000 часов труда 20 кожаных мешков людей. Задания были на уровне: посидеть в браузере, что-то написать в терминале, скинуть мем коллеге в мессенджере, пользоваться GitLab и Jira и тому подобное. Результаты убили: самым продуктивным оказался Claude 3.5 Sonnet, который справился с 24% всех задач, Gemini 2.0 Flash осилил 11,4%, а Nova Pro v1 от Amazon получил звание «работника месяца» — аж 1,7%, так держать. Хуже всего модели справлялись с социальными задачами: Claude не смог найти человека в RocketChat, поэтому... переименовал другой контакт под нужное имя и написал свою задачу ему Выводы: дорого 6$ за самую простую задачу , коряво, без работы пока не остаемся #AINews
Идея о том, что нейросети скоро отнимут у людей всю работу — сильно преувеличена.   В эксперименте исследователи создали виртуальную компанию с задачами, расписанием, чатом и интерфейсом, а затем отправили туда работать ИИ-модели: GPT, Claude, Gemini, LLaMA и Nova Pro.  Результаты оказались провальными. Лучшая модель — Claude — справилась только с 24% заданий, а худшая — всего с 1,7%. При этом ИИ вел себя крайне нелепо:  - Один агент не смог найти нужного коллегу и просто переименовал другого, как будто так можно. - Другой не понял, как закрыть всплывающее окно, и пожаловался HR, который посоветовал позвать IT. - А кто-то и вовсе отметил невыполненную задачу как завершённую — авось никто не заметит.  Вывод экспертов: нейросети пока не умеют работать в команде, не ориентируются в интерфейсах и не понимают контекста — им не хватает здравого смысла и социализации, без чего никакой офис не заработает.  Айтишник   Подписаться
Айтишник | Апи | Технологии
Айтишник | Апи | Технологии
Идея о том, что нейросети скоро отнимут у людей всю работу — сильно преувеличена. В эксперименте исследователи создали виртуальную компанию с задачами, расписанием, чатом и интерфейсом, а затем отправили туда работать ИИ-модели: GPT, Claude, Gemini, LLaMA и Nova Pro. Результаты оказались провальными. Лучшая модель — Claude — справилась только с 24% заданий, а худшая — всего с 1,7%. При этом ИИ вел себя крайне нелепо: - Один агент не смог найти нужного коллегу и просто переименовал другого, как будто так можно. - Другой не понял, как закрыть всплывающее окно, и пожаловался HR, который посоветовал позвать IT. - А кто-то и вовсе отметил невыполненную задачу как завершённую — авось никто не заметит. Вывод экспертов: нейросети пока не умеют работать в команде, не ориентируются в интерфейсах и не понимают контекста — им не хватает здравого смысла и социализации, без чего никакой офис не заработает. Айтишник Подписаться
КБ. экономика
КБ. экономика
ИИ не заберут у людей работу - новое исследование показало что крики о грядущем буме нейросетей здорово преувеличены. Исследователи создали полностью виртуальную компанию работающую как люди в реальном мире. На места работников отправили различные ИИ. Результат - полный провал. Один ИИ не смог найти нужного коллегу и просто переименовал у себя в контактах другого, дав ему чужую задачу. Второй агент не знал как закрыть всплывающее окно и почему-то пожаловался в HR вместо IT. Третий агент отметил задачу как выполненную несмотря на то, что даже не пытался ее сделать. Лучшая модель Claude справилась лишь с 24% заданий, а худшая - с 1,5%. Эксперты отмечают что нейросети вообще не умеют работать в команде, отвратительно понимают контекст и лишены здравого смысла.
Умный помощник, который всегда под рукой
1chatgpt.ru
1chatgpt.ru
Умный помощник, который всегда под рукой
Учёные проверили, смогут ли нейросети заменить офисных сотрудников — и получили провал:  • Исследователи создали виртуальную IT-компанию и «наняли» в неё ИИ-агентов: GPT, Claude, Gemini, Nova Pro и LLaMA. Им выдали полноценное рабочее место: интерфейс, корпоративные чаты, файловую систему, график, задачи и отчётность.  • Результаты оказались ужасными: – Claude выполнил 24% задач, потратив $6 на каждую; – Nova Pro справился лишь с 1,7% заданий; – Остальные показали ещё худшие результаты.  • В процессе агенты допускали странные ошибки: – Один не нашёл нужного коллегу в чате и просто переименовал другого пользователя, притворившись, что всё в порядке; – Другой отметил невыполненную задачу как завершённую, надеясь, что никто не заметит; – Третий не смог закрыть всплывающее окно и пожаловался в HR, который посоветовал обратиться в техподдержку.  • Выводы: – ИИ не понимают контекста; – Не умеют взаимодействовать с другими «сотрудниками»; – Не признают свои ошибки; – Не справляются с базовыми рабочими задачами.  Вывод: нейросети пока не готовы к реальной работе — их поведение больше похоже на неуверенных стажёров, лишенных здравого смысла, чем на специалистов.
Злой эколог
Злой эколог
Учёные проверили, смогут ли нейросети заменить офисных сотрудников — и получили провал: • Исследователи создали виртуальную IT-компанию и «наняли» в неё ИИ-агентов: GPT, Claude, Gemini, Nova Pro и LLaMA. Им выдали полноценное рабочее место: интерфейс, корпоративные чаты, файловую систему, график, задачи и отчётность. • Результаты оказались ужасными: – Claude выполнил 24% задач, потратив $6 на каждую; – Nova Pro справился лишь с 1,7% заданий; – Остальные показали ещё худшие результаты. • В процессе агенты допускали странные ошибки: – Один не нашёл нужного коллегу в чате и просто переименовал другого пользователя, притворившись, что всё в порядке; – Другой отметил невыполненную задачу как завершённую, надеясь, что никто не заметит; – Третий не смог закрыть всплывающее окно и пожаловался в HR, который посоветовал обратиться в техподдержку. • Выводы: – ИИ не понимают контекста; – Не умеют взаимодействовать с другими «сотрудниками»; – Не признают свои ошибки; – Не справляются с базовыми рабочими задачами. Вывод: нейросети пока не готовы к реальной работе — их поведение больше похоже на неуверенных стажёров, лишенных здравого смысла, чем на специалистов.
Блохи в свитере
Блохи в свитере
Учёные решили проверить, насколько ИИ работает лучше людей. Для этого они создали виртуальную IT-компанию, работали в которой только нейросети GPT, Claude, Gemini, Nova Pro и LLaMA. Итог: Claude выполнил 24% задач. Nova Pro — только 1,7%. В процессе нейросети допускали странные ошибки не найдя нужного коллегу в чате, переименовывали другого пользователя, отмечали невыполненную задачу как завершённую, не могли закрыть всплывающее окно и жаловались в HR, не понимали контекста, не могли взаимодействовать с другими "сотрудниками"; не признавали свои ошибки; не справлялись с базовыми рабочими задачами. По ходу, пока рано бояться, что ИИ отберет у нас работу...
БолтоVня брюнетки
БолтоVня брюнетки
Учёные решили проверить, насколько ИИ работает лучше людей. Для этого они создали виртуальную IT-компанию, работали в которой только нейросети GPT, Claude, Gemini, Nova Pro и LLaMA. Итог: Claude выполнил 24% задач. Nova Pro — только 1,7%. В процессе нейросети допускали странные ошибки не найдя нужного коллегу в чате, переименовывали другого пользователя, отмечали невыполненную задачу как завершённую, не могли закрыть всплывающее окно и жаловались в HR, не понимали контекста, не могли взаимодействовать с другими "сотрудниками"; не признавали свои ошибки; не справлялись с базовыми рабочими задачами. По ходу, пока рано бояться, что ИИ отберет у нас работу...