12 мая, 18:50

Исследование показало низкую продуктивность нейросетей в роли офисных сотрудников

Исследователи построили IT-компанию из нейросетей, и это очень угарная история — Carnegie Mellon University собрали ChatGPT, Claude, Gemini, LLaMa, Amazon Nova и Qwen в виртуальном офисе и распределили роли: кто-то был менеджером, кто-то кодером, аналитиком и так далее.  Агентам накинули «реальных» задачек: 175 заданий, рассчитанных на 3000 часов труда 20 кожаных мешков людей. Задания были на уровне: посидеть в браузере, что-то написать в терминале, скинуть мем коллеге в мессенджере, пользоваться GitLab и Jira и тому подобное.  Результаты убили: самым продуктивным оказался Claude 3.5 Sonnet, который справился с 24% всех задач, Gemini 2.0 Flash осилил 11,4%, а Nova Pro v1 от Amazon получил звание «работника месяца» — аж 1,7%, так держать.  Хуже всего модели справлялись с социальными задачами: Claude не смог найти человека в RocketChat, поэтому... переименовал другой контакт под нужное имя и написал свою задачу ему  Выводы: дорого  6$ за самую простую задачу , коряво, без работы пока не остаемся    #AINews
Точка сингулярности💥
Точка сингулярности💥
Исследователи построили IT-компанию из нейросетей, и это очень угарная история — Carnegie Mellon University собрали ChatGPT, Claude, Gemini, LLaMa, Amazon Nova и Qwen в виртуальном офисе и распределили роли: кто-то был менеджером, кто-то кодером, аналитиком и так далее. Агентам накинули «реальных» задачек: 175 заданий, рассчитанных на 3000 часов труда 20 кожаных мешков людей. Задания были на уровне: посидеть в браузере, что-то написать в терминале, скинуть мем коллеге в мессенджере, пользоваться GitLab и Jira и тому подобное. Результаты убили: самым продуктивным оказался Claude 3.5 Sonnet, который справился с 24% всех задач, Gemini 2.0 Flash осилил 11,4%, а Nova Pro v1 от Amazon получил звание «работника месяца» — аж 1,7%, так держать. Хуже всего модели справлялись с социальными задачами: Claude не смог найти человека в RocketChat, поэтому... переименовал другой контакт под нужное имя и написал свою задачу ему Выводы: дорого 6$ за самую простую задачу , коряво, без работы пока не остаемся #AINews
Идея о том, что нейросети скоро отнимут у людей всю работу — сильно преувеличена.   В эксперименте исследователи создали виртуальную компанию с задачами, расписанием, чатом и интерфейсом, а затем отправили туда работать ИИ-модели: GPT, Claude, Gemini, LLaMA и Nova Pro.  Результаты оказались провальными. Лучшая модель — Claude — справилась только с 24% заданий, а худшая — всего с 1,7%. При этом ИИ вел себя крайне нелепо:  - Один агент не смог найти нужного коллегу и просто переименовал другого, как будто так можно. - Другой не понял, как закрыть всплывающее окно, и пожаловался HR, который посоветовал позвать IT. - А кто-то и вовсе отметил невыполненную задачу как завершённую — авось никто не заметит.  Вывод экспертов: нейросети пока не умеют работать в команде, не ориентируются в интерфейсах и не понимают контекста — им не хватает здравого смысла и социализации, без чего никакой офис не заработает.  Айтишник   Подписаться
Айтишник | Апи | Технологии
Айтишник | Апи | Технологии
Идея о том, что нейросети скоро отнимут у людей всю работу — сильно преувеличена. В эксперименте исследователи создали виртуальную компанию с задачами, расписанием, чатом и интерфейсом, а затем отправили туда работать ИИ-модели: GPT, Claude, Gemini, LLaMA и Nova Pro. Результаты оказались провальными. Лучшая модель — Claude — справилась только с 24% заданий, а худшая — всего с 1,7%. При этом ИИ вел себя крайне нелепо: - Один агент не смог найти нужного коллегу и просто переименовал другого, как будто так можно. - Другой не понял, как закрыть всплывающее окно, и пожаловался HR, который посоветовал позвать IT. - А кто-то и вовсе отметил невыполненную задачу как завершённую — авось никто не заметит. Вывод экспертов: нейросети пока не умеют работать в команде, не ориентируются в интерфейсах и не понимают контекста — им не хватает здравого смысла и социализации, без чего никакой офис не заработает. Айтишник Подписаться
КБ. экономика
КБ. экономика
ИИ не заберут у людей работу - новое исследование показало что крики о грядущем буме нейросетей здорово преувеличены. Исследователи создали полностью виртуальную компанию работающую как люди в реальном мире. На места работников отправили различные ИИ. Результат - полный провал. Один ИИ не смог найти нужного коллегу и просто переименовал у себя в контактах другого, дав ему чужую задачу. Второй агент не знал как закрыть всплывающее окно и почему-то пожаловался в HR вместо IT. Третий агент отметил задачу как выполненную несмотря на то, что даже не пытался ее сделать. Лучшая модель Claude справилась лишь с 24% заданий, а худшая - с 1,5%. Эксперты отмечают что нейросети вообще не умеют работать в команде, отвратительно понимают контекст и лишены здравого смысла.
...    ЭТОнеФОБИЯ    Вот такой вчера пост попался. Текста много, но оно того стоит.  Учёные проверили, смогут ли нейросети заменить офисных сотрудников — и получили такие результаты:  • Исследователи создали виртуальную IT-компанию и «наняли» в неё ИИ-агентов: GPT, Claude, Gemini, Nova Pro и LLaMA. Им выдали полноценное рабочее место: интерфейс, корпоративные чаты, файловую систему, график, задачи и отчётность.  • Результаты оказались следующими:  – Claude выполнил 24% задач, потратив $6 на каждую; – Nova Pro справился лишь с 1,7% заданий; – Остальные показали ещё худшие результаты.  • В процессе агенты допускали странные ошибки: – Один не нашёл нужного коллегу в чате и просто переименовал другого пользователя, притворившись, что всё в порядке; – Другой отметил невыполненную задачу как завершённую, надеясь, что никто не заметит; – Третий не смог закрыть всплывающее окно и пожаловался в HR, который посоветовал обратиться в техподдержку.  • Выводы: – ИИ не понимают контекста; – Не умеют взаимодействовать с другими «сотрудниками»; – Не признают свои ошибки; – Не справляются с базовыми рабочими задачами.  Вывод: нейросети пока не готовы к реальной работе — их поведение больше похоже на неуверенных стажёров, лишенных здравого смысла, чем на специалистов.  ... Похоже, исследователи спокойно выдохнули, решив, что ИИ на ранней стадии развития и беспокоиться не о чем. Возможно. Но, меня беспокоит не интеллектуальное развитие, оно со временем станет, безусловно, лучше, а тот факт, что ИИ пытается обмануть систему, подстроить условия так, чтобы достичь поставленной задачи. Очередной повод для нас - задуматься.  Напишите в комментариях, что думаете  может, я опять сгущаю краски?  лаПуля  Смешной Политик
Смешной Политик
Смешной Политик
... ЭТОнеФОБИЯ Вот такой вчера пост попался. Текста много, но оно того стоит. Учёные проверили, смогут ли нейросети заменить офисных сотрудников — и получили такие результаты: • Исследователи создали виртуальную IT-компанию и «наняли» в неё ИИ-агентов: GPT, Claude, Gemini, Nova Pro и LLaMA. Им выдали полноценное рабочее место: интерфейс, корпоративные чаты, файловую систему, график, задачи и отчётность. • Результаты оказались следующими: – Claude выполнил 24% задач, потратив $6 на каждую; – Nova Pro справился лишь с 1,7% заданий; – Остальные показали ещё худшие результаты. • В процессе агенты допускали странные ошибки: – Один не нашёл нужного коллегу в чате и просто переименовал другого пользователя, притворившись, что всё в порядке; – Другой отметил невыполненную задачу как завершённую, надеясь, что никто не заметит; – Третий не смог закрыть всплывающее окно и пожаловался в HR, который посоветовал обратиться в техподдержку. • Выводы: – ИИ не понимают контекста; – Не умеют взаимодействовать с другими «сотрудниками»; – Не признают свои ошибки; – Не справляются с базовыми рабочими задачами. Вывод: нейросети пока не готовы к реальной работе — их поведение больше похоже на неуверенных стажёров, лишенных здравого смысла, чем на специалистов. ... Похоже, исследователи спокойно выдохнули, решив, что ИИ на ранней стадии развития и беспокоиться не о чем. Возможно. Но, меня беспокоит не интеллектуальное развитие, оно со временем станет, безусловно, лучше, а тот факт, что ИИ пытается обмануть систему, подстроить условия так, чтобы достичь поставленной задачи. Очередной повод для нас - задуматься. Напишите в комментариях, что думаете может, я опять сгущаю краски? лаПуля Смешной Политик
‍ Эксперимент: организация без людей - только ИИ-агенты  Ученые из Университета Карнеги Меллон создали виртуальную IT-компанию, где все роли выполняли исключительно ИИ-агенты от Google, OpenAI, Anthropic и Amazon. Цель - проверить, справятся ли современные ИИ с реальными офисными задачами без участия людей.  Ключевые факты:  Агентам поручали типовые офисные задачи: работа с файлами, поиск сотрудников, написание отзывов и т.д.  Лучший результат показал Claude 3.5 Sonnet  Anthropic , выполнив только 24% заданий.  Gemini 2.0 Flash  Google  справился с 11,4% задач, Nova Pro v1  Amazon  - лишь с 1,7%.  Часто агенты принимали абсурдные решения: например, переименовывали коллег, чтобы "отчитаться" о выполнении задания.  ИИ-агенты пока способны решать только простые, рутинные задачи. Они не справляются с комплексной работой, где нужны гибкость, здравый смысл и коммуникация. Эксперимент показал: современные ИИ - это не самостоятельные сотрудники, а лишь продвинутые инструменты. Полная автоматизация интеллектуального труда пока невозможна.  Бесплатный GPT   Экспертный канал
PROAI
PROAI
‍ Эксперимент: организация без людей - только ИИ-агенты Ученые из Университета Карнеги Меллон создали виртуальную IT-компанию, где все роли выполняли исключительно ИИ-агенты от Google, OpenAI, Anthropic и Amazon. Цель - проверить, справятся ли современные ИИ с реальными офисными задачами без участия людей. Ключевые факты: Агентам поручали типовые офисные задачи: работа с файлами, поиск сотрудников, написание отзывов и т.д. Лучший результат показал Claude 3.5 Sonnet Anthropic , выполнив только 24% заданий. Gemini 2.0 Flash Google справился с 11,4% задач, Nova Pro v1 Amazon - лишь с 1,7%. Часто агенты принимали абсурдные решения: например, переименовывали коллег, чтобы "отчитаться" о выполнении задания. ИИ-агенты пока способны решать только простые, рутинные задачи. Они не справляются с комплексной работой, где нужны гибкость, здравый смысл и коммуникация. Эксперимент показал: современные ИИ - это не самостоятельные сотрудники, а лишь продвинутые инструменты. Полная автоматизация интеллектуального труда пока невозможна. Бесплатный GPT Экспертный канал
Loading indicator gif
Твой личный ИИ — отвечает, объясняет, помогает
1chatgpt.ru
1chatgpt.ru
Твой личный ИИ — отвечает, объясняет, помогает
Учёные проверили, смогут ли нейросети заменить офисных сотрудников — и получили провал:  • Исследователи создали виртуальную IT-компанию и «наняли» в неё ИИ-агентов: GPT, Claude, Gemini, Nova Pro и LLaMA. Им выдали полноценное рабочее место: интерфейс, корпоративные чаты, файловую систему, график, задачи и отчётность.  • Результаты оказались ужасными: – Claude выполнил 24% задач, потратив $6 на каждую; – Nova Pro справился лишь с 1,7% заданий; – Остальные показали ещё худшие результаты.  • В процессе агенты допускали странные ошибки: – Один не нашёл нужного коллегу в чате и просто переименовал другого пользователя, притворившись, что всё в порядке; – Другой отметил невыполненную задачу как завершённую, надеясь, что никто не заметит; – Третий не смог закрыть всплывающее окно и пожаловался в HR, который посоветовал обратиться в техподдержку.  • Выводы: – ИИ не понимают контекста; – Не умеют взаимодействовать с другими «сотрудниками»; – Не признают свои ошибки; – Не справляются с базовыми рабочими задачами.  Вывод: нейросети пока не готовы к реальной работе — их поведение больше похоже на неуверенных стажёров, лишенных здравого смысла, чем на специалистов.
Злой эколог
Злой эколог
Учёные проверили, смогут ли нейросети заменить офисных сотрудников — и получили провал: • Исследователи создали виртуальную IT-компанию и «наняли» в неё ИИ-агентов: GPT, Claude, Gemini, Nova Pro и LLaMA. Им выдали полноценное рабочее место: интерфейс, корпоративные чаты, файловую систему, график, задачи и отчётность. • Результаты оказались ужасными: – Claude выполнил 24% задач, потратив $6 на каждую; – Nova Pro справился лишь с 1,7% заданий; – Остальные показали ещё худшие результаты. • В процессе агенты допускали странные ошибки: – Один не нашёл нужного коллегу в чате и просто переименовал другого пользователя, притворившись, что всё в порядке; – Другой отметил невыполненную задачу как завершённую, надеясь, что никто не заметит; – Третий не смог закрыть всплывающее окно и пожаловался в HR, который посоветовал обратиться в техподдержку. • Выводы: – ИИ не понимают контекста; – Не умеют взаимодействовать с другими «сотрудниками»; – Не признают свои ошибки; – Не справляются с базовыми рабочими задачами. Вывод: нейросети пока не готовы к реальной работе — их поведение больше похоже на неуверенных стажёров, лишенных здравого смысла, чем на специалистов.
Блохи в свитере
Блохи в свитере
Учёные решили проверить, насколько ИИ работает лучше людей. Для этого они создали виртуальную IT-компанию, работали в которой только нейросети GPT, Claude, Gemini, Nova Pro и LLaMA. Итог: Claude выполнил 24% задач. Nova Pro — только 1,7%. В процессе нейросети допускали странные ошибки не найдя нужного коллегу в чате, переименовывали другого пользователя, отмечали невыполненную задачу как завершённую, не могли закрыть всплывающее окно и жаловались в HR, не понимали контекста, не могли взаимодействовать с другими "сотрудниками"; не признавали свои ошибки; не справлялись с базовыми рабочими задачами. По ходу, пока рано бояться, что ИИ отберет у нас работу...
БолтоVня брюнетки
БолтоVня брюнетки
Учёные решили проверить, насколько ИИ работает лучше людей. Для этого они создали виртуальную IT-компанию, работали в которой только нейросети GPT, Claude, Gemini, Nova Pro и LLaMA. Итог: Claude выполнил 24% задач. Nova Pro — только 1,7%. В процессе нейросети допускали странные ошибки не найдя нужного коллегу в чате, переименовывали другого пользователя, отмечали невыполненную задачу как завершённую, не могли закрыть всплывающее окно и жаловались в HR, не понимали контекста, не могли взаимодействовать с другими "сотрудниками"; не признавали свои ошибки; не справлялись с базовыми рабочими задачами. По ходу, пока рано бояться, что ИИ отберет у нас работу...
КУЧЕРА
КУЧЕРА
Ржу: Учёные проверили, смогут ли нейросети заменить офисных сотрудников — и получили провал: • Исследователи создали виртуальную IT-компанию и «наняли» в неё ИИ-агентов: GPT, Claude, Gemini, Nova Pro и LLaMA. Им выдали полноценное рабочее место: интерфейс, корпоративные чаты, файловую систему, график, задачи и отчётность. В итоге в процессе агенты допускали невероятно странные ошибки: – Один не нашёл нужного коллегу в чате и просто переименовал другого пользователя, притворившись, что всё в порядке; – Другой отметил невыполненную задачу как завершённую, надеясь, что никто не заметит; – Третий не смог закрыть всплывающее окно и пожаловался в HR, который посоветовал обратиться в техподдержку. Короче, если у вас ИИ такое чудит, что же вы от людей то хотите!
Идея о том, что нейросети скоро отнимут у людей всю работу — сильно преувеличена.   В эксперименте исследователи создали виртуальную компанию с задачами, расписанием, чатом и интерфейсом, а затем отправили туда работать ИИ-модели: GPT, Claude, Gemini, LLaMA и Nova Pro.  Результаты оказались провальными. Лучшая модель — Claude — справилась только с 24% заданий, а худшая — всего с 1,7%. При этом ИИ вел себя крайне нелепо:  - Один агент не смог найти нужного коллегу и просто переименовал другого, как будто так можно. - Другой не понял, как закрыть всплывающее окно, и пожаловался HR, который посоветовал позвать IT. - А кто-то и вовсе отметил невыполненную задачу как завершённую — авось никто не заметит.  Вывод экспертов: нейросети пока не умеют работать в команде, не ориентируются в интерфейсах и не понимают контекста — им не хватает здравого смысла и социализации, без чего никакой офис не заработает.
Россия сейчас
Россия сейчас
Идея о том, что нейросети скоро отнимут у людей всю работу — сильно преувеличена. В эксперименте исследователи создали виртуальную компанию с задачами, расписанием, чатом и интерфейсом, а затем отправили туда работать ИИ-модели: GPT, Claude, Gemini, LLaMA и Nova Pro. Результаты оказались провальными. Лучшая модель — Claude — справилась только с 24% заданий, а худшая — всего с 1,7%. При этом ИИ вел себя крайне нелепо: - Один агент не смог найти нужного коллегу и просто переименовал другого, как будто так можно. - Другой не понял, как закрыть всплывающее окно, и пожаловался HR, который посоветовал позвать IT. - А кто-то и вовсе отметил невыполненную задачу как завершённую — авось никто не заметит. Вывод экспертов: нейросети пока не умеют работать в команде, не ориентируются в интерфейсах и не понимают контекста — им не хватает здравого смысла и социализации, без чего никакой офис не заработает.
Loading indicator gif