12 мая, 18:50

Исследование показало низкую продуктивность нейросетей в роли офисных сотрудников

Подготовлено редакцией Tek.fmДайджест Telegram-каналов

Исследователи построили IT-компанию из нейросетей, и это очень угарная история — Carnegie Mellon University собрали ChatGPT, Claude, Gemini, LLaMa, Amazon Nova и Qwen в виртуальном офисе и распределили роли: кто-то был менеджером, кто-то кодером, аналитиком и так далее. Агентам накинули «реальных» задачек: 175 заданий, рассчитанных на 3000 часов труда 20 кожаных мешков людей. Задания были на уровне: посидеть в браузере, что-то написать в терминале, скинуть мем коллеге в мессенджере, пользоваться GitLab и Jira и тому подобное. Результаты убили: самым продуктивным оказался Claude 3.5 Sonnet, который справился с 24% всех задач, Gemini 2.0 Flash осилил 11,4%, а Nova Pro v1 от Amazon получил звание «работника месяца» — аж 1,7%, так держать. Хуже всего модели справлялись с социальными задачами: Claude не смог найти человека в RocketChat, поэтому... переименовал другой контакт под нужное имя и написал свою задачу ему Выводы: дорого 6$ за самую простую задачу , коряво, без работы пока не остаемся #AINews

Технологии368 дней назад

Айтишник | Апи | Технологии

Идея о том, что нейросети скоро отнимут у людей всю работу — сильно преувеличена. В эксперименте исследователи создали виртуальную компанию с задачами, расписанием, чатом и интерфейсом, а затем отправили туда работать ИИ-модели: GPT, Claude, Gemini, LLaMA и Nova Pro. Результаты оказались провальными. Лучшая модель — Claude — справилась только с 24% заданий, а худшая — всего с 1,7%. При этом ИИ вел себя крайне нелепо: - Один агент не смог найти нужного коллегу и просто переименовал другого, как будто так можно. - Другой не понял, как закрыть всплывающее окно, и пожаловался HR, который посоветовал позвать IT. - А кто-то и вовсе отметил невыполненную задачу как завершённую — авось никто не заметит. Вывод экспертов: нейросети пока не умеют работать в команде, не ориентируются в интерфейсах и не понимают контекста — им не хватает здравого смысла и социализации, без чего никакой офис не заработает. Айтишник Подписаться

Технологии366 дней назад

КУЧЕРА

Ржу: Учёные проверили, смогут ли нейросети заменить офисных сотрудников — и получили провал: • Исследователи создали виртуальную IT-компанию и «наняли» в неё ИИ-агентов: GPT, Claude, Gemini, Nova Pro и LLaMA. Им выдали полноценное рабочее место: интерфейс, корпоративные чаты, файловую систему, график, задачи и отчётность. В итоге в процессе агенты допускали невероятно странные ошибки: – Один не нашёл нужного коллегу в чате и просто переименовал другого пользователя, притворившись, что всё в порядке; – Другой отметил невыполненную задачу как завершённую, надеясь, что никто не заметит; – Третий не смог закрыть всплывающее окно и пожаловался в HR, который посоветовал обратиться в техподдержку. Короче, если у вас ИИ такое чудит, что же вы от людей то хотите!

Технологии365 дней назад

Россия сейчас

Технологии365 дней назад

PROAI

‍ Эксперимент: организация без людей - только ИИ-агенты Ученые из Университета Карнеги Меллон создали виртуальную IT-компанию, где все роли выполняли исключительно ИИ-агенты от Google, OpenAI, Anthropic и Amazon. Цель - проверить, справятся ли современные ИИ с реальными офисными задачами без участия людей. Ключевые факты: Агентам поручали типовые офисные задачи: работа с файлами, поиск сотрудников, написание отзывов и т.д. Лучший результат показал Claude 3.5 Sonnet Anthropic , выполнив только 24% заданий. Gemini 2.0 Flash Google справился с 11,4% задач, Nova Pro v1 Amazon - лишь с 1,7%. Часто агенты принимали абсурдные решения: например, переименовывали коллег, чтобы "отчитаться" о выполнении задания. ИИ-агенты пока способны решать только простые, рутинные задачи. Они не справляются с комплексной работой, где нужны гибкость, здравый смысл и коммуникация. Эксперимент показал: современные ИИ - это не самостоятельные сотрудники, а лишь продвинутые инструменты. Полная автоматизация интеллектуального труда пока невозможна. Бесплатный GPT Экспертный канал

Технологии365 дней назад

Злой эколог

Учёные проверили, смогут ли нейросети заменить офисных сотрудников — и получили провал: • Исследователи создали виртуальную IT-компанию и «наняли» в неё ИИ-агентов: GPT, Claude, Gemini, Nova Pro и LLaMA. Им выдали полноценное рабочее место: интерфейс, корпоративные чаты, файловую систему, график, задачи и отчётность. • Результаты оказались ужасными: – Claude выполнил 24% задач, потратив $6 на каждую; – Nova Pro справился лишь с 1,7% заданий; – Остальные показали ещё худшие результаты. • В процессе агенты допускали странные ошибки: – Один не нашёл нужного коллегу в чате и просто переименовал другого пользователя, притворившись, что всё в порядке; – Другой отметил невыполненную задачу как завершённую, надеясь, что никто не заметит; – Третий не смог закрыть всплывающее окно и пожаловался в HR, который посоветовал обратиться в техподдержку. • Выводы: – ИИ не понимают контекста; – Не умеют взаимодействовать с другими «сотрудниками»; – Не признают свои ошибки; – Не справляются с базовыми рабочими задачами. Вывод: нейросети пока не готовы к реальной работе — их поведение больше похоже на неуверенных стажёров, лишенных здравого смысла, чем на специалистов.

Технологии366 дней назад

Блохи в свитере

Учёные решили проверить, насколько ИИ работает лучше людей. Для этого они создали виртуальную IT-компанию, работали в которой только нейросети GPT, Claude, Gemini, Nova Pro и LLaMA. Итог: Claude выполнил 24% задач. Nova Pro — только 1,7%. В процессе нейросети допускали странные ошибки не найдя нужного коллегу в чате, переименовывали другого пользователя, отмечали невыполненную задачу как завершённую, не могли закрыть всплывающее окно и жаловались в HR, не понимали контекста, не могли взаимодействовать с другими "сотрудниками"; не признавали свои ошибки; не справлялись с базовыми рабочими задачами. По ходу, пока рано бояться, что ИИ отберет у нас работу...

Технологии366 дней назад

БолтоVня брюнетки

Технологии366 дней назад

КБ. экономика

ИИ не заберут у людей работу - новое исследование показало что крики о грядущем буме нейросетей здорово преувеличены. Исследователи создали полностью виртуальную компанию работающую как люди в реальном мире. На места работников отправили различные ИИ. Результат - полный провал. Один ИИ не смог найти нужного коллегу и просто переименовал у себя в контактах другого, дав ему чужую задачу. Второй агент не знал как закрыть всплывающее окно и почему-то пожаловался в HR вместо IT. Третий агент отметил задачу как выполненную несмотря на то, что даже не пытался ее сделать. Лучшая модель Claude справилась лишь с 24% заданий, а худшая - с 1,5%. Эксперты отмечают что нейросети вообще не умеют работать в команде, отвратительно понимают контекст и лишены здравого смысла.

Технологии366 дней назад

Смешной Политик

... ЭТОнеФОБИЯ Вот такой вчера пост попался. Текста много, но оно того стоит. Учёные проверили, смогут ли нейросети заменить офисных сотрудников — и получили такие результаты: • Исследователи создали виртуальную IT-компанию и «наняли» в неё ИИ-агентов: GPT, Claude, Gemini, Nova Pro и LLaMA. Им выдали полноценное рабочее место: интерфейс, корпоративные чаты, файловую систему, график, задачи и отчётность. • Результаты оказались следующими: – Claude выполнил 24% задач, потратив $6 на каждую; – Nova Pro справился лишь с 1,7% заданий; – Остальные показали ещё худшие результаты. • В процессе агенты допускали странные ошибки: – Один не нашёл нужного коллегу в чате и просто переименовал другого пользователя, притворившись, что всё в порядке; – Другой отметил невыполненную задачу как завершённую, надеясь, что никто не заметит; – Третий не смог закрыть всплывающее окно и пожаловался в HR, который посоветовал обратиться в техподдержку. • Выводы: – ИИ не понимают контекста; – Не умеют взаимодействовать с другими «сотрудниками»; – Не признают свои ошибки; – Не справляются с базовыми рабочими задачами. Вывод: нейросети пока не готовы к реальной работе — их поведение больше похоже на неуверенных стажёров, лишенных здравого смысла, чем на специалистов. ... Похоже, исследователи спокойно выдохнули, решив, что ИИ на ранней стадии развития и беспокоиться не о чем. Возможно. Но, меня беспокоит не интеллектуальное развитие, оно со временем станет, безусловно, лучше, а тот факт, что ИИ пытается обмануть систему, подстроить условия так, чтобы достичь поставленной задачи. Очередной повод для нас - задуматься. Напишите в комментариях, что думаете может, я опять сгущаю краски? лаПуля Смешной Политик

Технологии365 дней назад

Источники

Точка сингулярности💥

Злой эколог

Айтишник | Апи | Технологии

Похожие новости

Thinking Machines анонсирует новые модели взаимодействия с ИИ для живого общения

Технологии

1 день назад

Google предотвращает первую атаку с использованием ИИ на двухфакторную аутентификацию

Технологии

23 часа назад

Сотрудники OpenAI реализовали акции на 6,6 миллиарда долларов

Экономика

1 день назад

OpenAI запускает инициативу Daybreak для автоматизации защиты от уязвимостей

Технологии

1 день назад

Anthropic представляет новые ИИ инструменты для юристов, вызывая падение акций LegalTech компаний

Технологии

15 часов назад

Google анонсирует обновление Gemini Intelligence и новые функции Android 17

Технологии

1 день назад

Исследование показало низкую продуктивность нейросетей в роли офисных сотрудников

Ещё по теме

Источники

Thinking Machines анонсирует новые модели взаимодействия с ИИ для живого общения

Google предотвращает первую атаку с использованием ИИ на двухфакторную аутентификацию

Сотрудники OpenAI реализовали акции на 6,6 миллиарда долларов

OpenAI запускает инициативу Daybreak для автоматизации защиты от уязвимостей

Anthropic представляет новые ИИ инструменты для юристов, вызывая падение акций LegalTech компаний

Google анонсирует обновление Gemini Intelligence и новые функции Android 17