12 мая, 18:50
Исследование показало низкую продуктивность нейросетей в роли офисных сотрудников


Точка сингулярности💥
Исследователи построили IT-компанию из нейросетей, и это очень угарная история — Carnegie Mellon University собрали ChatGPT, Claude, Gemini, LLaMa, Amazon Nova и Qwen в виртуальном офисе и распределили роли: кто-то был менеджером, кто-то кодером, аналитиком и так далее. Агентам накинули «реальных» задачек: 175 заданий, рассчитанных на 3000 часов труда 20 кожаных мешков людей. Задания были на уровне: посидеть в браузере, что-то написать в терминале, скинуть мем коллеге в мессенджере, пользоваться GitLab и Jira и тому подобное. Результаты убили: самым продуктивным оказался Claude 3.5 Sonnet, который справился с 24% всех задач, Gemini 2.0 Flash осилил 11,4%, а Nova Pro v1 от Amazon получил звание «работника месяца» — аж 1,7%, так держать. Хуже всего модели справлялись с социальными задачами: Claude не смог найти человека в RocketChat, поэтому... переименовал другой контакт под нужное имя и написал свою задачу ему Выводы: дорого 6$ за самую простую задачу , коряво, без работы пока не остаемся #AINews
Технологии51 день назад


Айтишник | Апи | Технологии
Идея о том, что нейросети скоро отнимут у людей всю работу — сильно преувеличена. В эксперименте исследователи создали виртуальную компанию с задачами, расписанием, чатом и интерфейсом, а затем отправили туда работать ИИ-модели: GPT, Claude, Gemini, LLaMA и Nova Pro. Результаты оказались провальными. Лучшая модель — Claude — справилась только с 24% заданий, а худшая — всего с 1,7%. При этом ИИ вел себя крайне нелепо: - Один агент не смог найти нужного коллегу и просто переименовал другого, как будто так можно. - Другой не понял, как закрыть всплывающее окно, и пожаловался HR, который посоветовал позвать IT. - А кто-то и вовсе отметил невыполненную задачу как завершённую — авось никто не заметит. Вывод экспертов: нейросети пока не умеют работать в команде, не ориентируются в интерфейсах и не понимают контекста — им не хватает здравого смысла и социализации, без чего никакой офис не заработает. Айтишник Подписаться
Технологии49 дней назад

КБ. экономика
ИИ не заберут у людей работу - новое исследование показало что крики о грядущем буме нейросетей здорово преувеличены. Исследователи создали полностью виртуальную компанию работающую как люди в реальном мире. На места работников отправили различные ИИ. Результат - полный провал. Один ИИ не смог найти нужного коллегу и просто переименовал у себя в контактах другого, дав ему чужую задачу. Второй агент не знал как закрыть всплывающее окно и почему-то пожаловался в HR вместо IT. Третий агент отметил задачу как выполненную несмотря на то, что даже не пытался ее сделать. Лучшая модель Claude справилась лишь с 24% заданий, а худшая - с 1,5%. Эксперты отмечают что нейросети вообще не умеют работать в команде, отвратительно понимают контекст и лишены здравого смысла.
Технологии48 дней назад


Смешной Политик
... ЭТОнеФОБИЯ Вот такой вчера пост попался. Текста много, но оно того стоит. Учёные проверили, смогут ли нейросети заменить офисных сотрудников — и получили такие результаты: • Исследователи создали виртуальную IT-компанию и «наняли» в неё ИИ-агентов: GPT, Claude, Gemini, Nova Pro и LLaMA. Им выдали полноценное рабочее место: интерфейс, корпоративные чаты, файловую систему, график, задачи и отчётность. • Результаты оказались следующими: – Claude выполнил 24% задач, потратив $6 на каждую; – Nova Pro справился лишь с 1,7% заданий; – Остальные показали ещё худшие результаты. • В процессе агенты допускали странные ошибки: – Один не нашёл нужного коллегу в чате и просто переименовал другого пользователя, притворившись, что всё в порядке; – Другой отметил невыполненную задачу как завершённую, надеясь, что никто не заметит; – Третий не смог закрыть всплывающее окно и пожаловался в HR, который посоветовал обратиться в техподдержку. • Выводы: – ИИ не понимают контекста; – Не умеют взаимодействовать с другими «сотрудниками»; – Не признают свои ошибки; – Не справляются с базовыми рабочими задачами. Вывод: нейросети пока не готовы к реальной работе — их поведение больше похоже на неуверенных стажёров, лишенных здравого смысла, чем на специалистов. ... Похоже, исследователи спокойно выдохнули, решив, что ИИ на ранней стадии развития и беспокоиться не о чем. Возможно. Но, меня беспокоит не интеллектуальное развитие, оно со временем станет, безусловно, лучше, а тот факт, что ИИ пытается обмануть систему, подстроить условия так, чтобы достичь поставленной задачи. Очередной повод для нас - задуматься. Напишите в комментариях, что думаете может, я опять сгущаю краски? лаПуля Смешной Политик
Технологии48 дней назад


PROAI
Эксперимент: организация без людей - только ИИ-агенты Ученые из Университета Карнеги Меллон создали виртуальную IT-компанию, где все роли выполняли исключительно ИИ-агенты от Google, OpenAI, Anthropic и Amazon. Цель - проверить, справятся ли современные ИИ с реальными офисными задачами без участия людей. Ключевые факты: Агентам поручали типовые офисные задачи: работа с файлами, поиск сотрудников, написание отзывов и т.д. Лучший результат показал Claude 3.5 Sonnet Anthropic , выполнив только 24% заданий. Gemini 2.0 Flash Google справился с 11,4% задач, Nova Pro v1 Amazon - лишь с 1,7%. Часто агенты принимали абсурдные решения: например, переименовывали коллег, чтобы "отчитаться" о выполнении задания. ИИ-агенты пока способны решать только простые, рутинные задачи. Они не справляются с комплексной работой, где нужны гибкость, здравый смысл и коммуникация. Эксперимент показал: современные ИИ - это не самостоятельные сотрудники, а лишь продвинутые инструменты. Полная автоматизация интеллектуального труда пока невозможна. Бесплатный GPT Экспертный канал
Технологии47 дней назад




Злой эколог
Учёные проверили, смогут ли нейросети заменить офисных сотрудников — и получили провал: • Исследователи создали виртуальную IT-компанию и «наняли» в неё ИИ-агентов: GPT, Claude, Gemini, Nova Pro и LLaMA. Им выдали полноценное рабочее место: интерфейс, корпоративные чаты, файловую систему, график, задачи и отчётность. • Результаты оказались ужасными: – Claude выполнил 24% задач, потратив $6 на каждую; – Nova Pro справился лишь с 1,7% заданий; – Остальные показали ещё худшие результаты. • В процессе агенты допускали странные ошибки: – Один не нашёл нужного коллегу в чате и просто переименовал другого пользователя, притворившись, что всё в порядке; – Другой отметил невыполненную задачу как завершённую, надеясь, что никто не заметит; – Третий не смог закрыть всплывающее окно и пожаловался в HR, который посоветовал обратиться в техподдержку. • Выводы: – ИИ не понимают контекста; – Не умеют взаимодействовать с другими «сотрудниками»; – Не признают свои ошибки; – Не справляются с базовыми рабочими задачами. Вывод: нейросети пока не готовы к реальной работе — их поведение больше похоже на неуверенных стажёров, лишенных здравого смысла, чем на специалистов.
Технологии49 дней назад

Блохи в свитере
Учёные решили проверить, насколько ИИ работает лучше людей. Для этого они создали виртуальную IT-компанию, работали в которой только нейросети GPT, Claude, Gemini, Nova Pro и LLaMA. Итог: Claude выполнил 24% задач. Nova Pro — только 1,7%. В процессе нейросети допускали странные ошибки не найдя нужного коллегу в чате, переименовывали другого пользователя, отмечали невыполненную задачу как завершённую, не могли закрыть всплывающее окно и жаловались в HR, не понимали контекста, не могли взаимодействовать с другими "сотрудниками"; не признавали свои ошибки; не справлялись с базовыми рабочими задачами. По ходу, пока рано бояться, что ИИ отберет у нас работу...
Технологии48 дней назад

БолтоVня брюнетки
Учёные решили проверить, насколько ИИ работает лучше людей. Для этого они создали виртуальную IT-компанию, работали в которой только нейросети GPT, Claude, Gemini, Nova Pro и LLaMA. Итог: Claude выполнил 24% задач. Nova Pro — только 1,7%. В процессе нейросети допускали странные ошибки не найдя нужного коллегу в чате, переименовывали другого пользователя, отмечали невыполненную задачу как завершённую, не могли закрыть всплывающее окно и жаловались в HR, не понимали контекста, не могли взаимодействовать с другими "сотрудниками"; не признавали свои ошибки; не справлялись с базовыми рабочими задачами. По ходу, пока рано бояться, что ИИ отберет у нас работу...
Технологии48 дней назад

КУЧЕРА
Ржу: Учёные проверили, смогут ли нейросети заменить офисных сотрудников — и получили провал: • Исследователи создали виртуальную IT-компанию и «наняли» в неё ИИ-агентов: GPT, Claude, Gemini, Nova Pro и LLaMA. Им выдали полноценное рабочее место: интерфейс, корпоративные чаты, файловую систему, график, задачи и отчётность. В итоге в процессе агенты допускали невероятно странные ошибки: – Один не нашёл нужного коллегу в чате и просто переименовал другого пользователя, притворившись, что всё в порядке; – Другой отметил невыполненную задачу как завершённую, надеясь, что никто не заметит; – Третий не смог закрыть всплывающее окно и пожаловался в HR, который посоветовал обратиться в техподдержку. Короче, если у вас ИИ такое чудит, что же вы от людей то хотите!
Технологии48 дней назад


Россия сейчас
Идея о том, что нейросети скоро отнимут у людей всю работу — сильно преувеличена. В эксперименте исследователи создали виртуальную компанию с задачами, расписанием, чатом и интерфейсом, а затем отправили туда работать ИИ-модели: GPT, Claude, Gemini, LLaMA и Nova Pro. Результаты оказались провальными. Лучшая модель — Claude — справилась только с 24% заданий, а худшая — всего с 1,7%. При этом ИИ вел себя крайне нелепо: - Один агент не смог найти нужного коллегу и просто переименовал другого, как будто так можно. - Другой не понял, как закрыть всплывающее окно, и пожаловался HR, который посоветовал позвать IT. - А кто-то и вовсе отметил невыполненную задачу как завершённую — авось никто не заметит. Вывод экспертов: нейросети пока не умеют работать в команде, не ориентируются в интерфейсах и не понимают контекста — им не хватает здравого смысла и социализации, без чего никакой офис не заработает.
Технологии47 дней назад

Похожие новости



+4



+6



+2



+10



+10



+1

Эксперимент с ИИ-менеджером Claude: месяц в офисе Anthropic и неожиданные результаты
Происшествия
1 день назад




Meta привлекает топ-специалистов для разработки искусственного интеллекта
Технологии
6 часов назад




США сохраняют лидерство в области ИИ, контролируя большинство центров обработки данных
Технологии
19 часов назад




Neuralink демонстрирует управление Call of Duty с помощью нейроинтерфейса
Технологии
1 день назад




Neuralink демонстрирует возможности мозговых имплантов для управления роботами и возвращения зрения
Технологии
22 часа назад




Программист Amazon из США делится опытом работы с индийской командой
Происшествия
1 час назад


