

vc.ru
OpenAI протестировала GPT 5 Claude Opus 4 1 и другие модели на 1320 прикладных задачах 44 профессий Среди них разработчики юристы финансовые консультанты менеджеры по продажам и врачи 40 задач GPT 5 выполнила лучше или на уровне человека Claude Opus 4 1 49 vc ru ai 2236831


Квест Теории Каст и Ролей
Интересно OpenAI создал GDPval TDLR ниже перевод статьи GDPval новый бенчмарк от OpenAI для измерения того как ИИ справляется с реальными экономически ценными задачами Основан на идее ВВП и охватывает 44 профессии в 9 ключевых отраслях США Как работает Включает 1320 задач созданных и проверенных экспертами с опытом 14 лет Задания максимально приближены к реальной работе юридические документы инженерные чертежи планы ухода за пациентами диалоги поддержки Форматы документы слайды таблицы мультимедиа Оценка Эксперты сравнивают вслепую работы людей и ИИ GPT 5 лидирует по точности Claude Opus 4 1 по оформлению С весны 2024 до лета 2025 качество работы моделей удвоилось Модели выполняют задачи 100x быстрее и дешевле людей без учёта надзора и интеграции Зачем GDPval показывает какие рутинные задачи ИИ может уже взять на себя освобождая людей для более творческой и ответственной работы Это может дать рост продуктивности и экономики Ограничения пока это одношаговые тесты не учитывающие итерации обратную связь и работу с неопределённостью Будущие версии будут расширяться и усложняться Статья openai com index gdpval Еще интересно Abundant Intelligence blog samaltman com abundant intelligence The Gentle Singularity blog samaltman com the gentle singularity

concertzaal
OpenAI прогнали нейронки на 1 320 реальных задачах из 44 профессий от юристов и инженеров до медсестёр и риелторов Плохая новость для людей модели уже близки к уровню экспертов Это были тесты не на знание столиц а задачи за которые в реальной жизни платят деньги договоры отчёты диагнозы по фото анализ конкурентов и тд Часть задач модели делают в 100 раз быстрее и дешевле людей но конечно не без ошибок Лучшей оказалась Claude Opus 4 1 в 47 задач его решения признали лучшими чем у экспертов если ваша работа это тексты письма и таблички то GPT уже рядом без кофе сна и выгорания concertzaal


IT и безопасность
Нейросети не способны заменить людей в 51 случаев Пока что OpenAI сделали новый бенчмарк под названием GDPval он оценивает способности нейронок в 44 различных профессиях и пока люди побеждают пусть и с небольшим отрывом Топовая на данный момент GPT 5 high от самих OpenAI набрала в этом тесте лишь 40 а лучше всех справилась Claude Opus 4 1 от Anthropic она оказалась на уровне или выше людей только в 49 случаев Отчёт OpenAI можно глянуть тут


42 секунды
TechCrunch OpenAI разработала новый бенчмарк для проверки эффективности моделей ИИ GDPval позволяет сравнить ИИ и человеческий профессионализм Тест позволяет понять насколько ИИ способен превзойти людей GPT 5 и Claude Opus 4 1 почти соответствуют отраслевым экспертам Оценка GDPval основана на данных из девяти разных отраслей OpenAI отобрала топ 9 отраслей которые влияют на ВВП для США Среди отраслей здравоохранение финансы производство и др Эффективность ИИ оценивают по 44 профессиям из этих отраслей В рамках теста сравнивают отчеты составленные экспертами и ИИ Модель GPT 5 high в 40 6 случаев лучше отраслевых экспертов Показатель для Claude Opus 4 1 от Anthropic составляет уже 49 ftsec


DNS_Club
OpenAI перечислила профессии где ChatGPT уже соперничает с людьми OpenAI опубликовала новое исследование GDPval в котором оценила работу своих моделей ИИ на реальных задачах из 44 профессий Цель показать насколько современные нейросети уже способны конкурировать с людьми в экономически значимых сферах Согласно результатам лучше всего модели проявили себя в рутинных и четко сформулированных задачах которые можно описать в виде конкретного задания

Блохи в свитере
OpenAI представила новую систему оценки GDPval с помощью которой удалось раскрыть 44 профессии в которых ИИ приблизился к уровню людей экспертов В списке риэлторы юристы инженеры медсёстры фармацевты программисты финансовые аналитики соцработники и проч И кстати GPT 5 high соответствовала уровню экспертов более чем в 40 случаев а GPT 4o лишь в 13 7

Первый Нейросетевой: IT & Digital
OpenAI прогнали нейронки на 1 320 реальных задачах из 44 профессий от юристов и инженеров до медсестёр и риелторов Плохая новость для людей модели уже близки к уровню экспертов Это были тесты не на знание столиц а задачи за которые в реальной жизни платят деньги договоры отчёты диагнозы по фото анализ конкурентов и тд Часть задач модели делают в 100 раз быстрее и дешевле людей но конечно не без ошибок Лучшей оказалась Claude Opus 4 1 в 47 задач его решения признали лучшими чем у экспертов если ваша работа это тексты письма и таблички то GPT уже рядом без кофе сна и выгорания Первый Нейросетевой
Похожие новости





















+7

Кремниевая долина нанимает философов для обучения ИИ с зарплатой до 400 тыс. долларов
Общество
1 день назад



В России разработана система ИИ для беспилотников и автоматизации авиации
Технологии
1 день назад



Шивон Зилис подтвердила связь с Илоном Маском в суде по делу против Сэма Альтмана
Шоу бизнес
1 день назад



Павел Дуров анонсировал успех TON в стейкинге среди криптовалют
Экономика
12 часов назад

ChatGPT внедряет функцию оповещения близких при угрозе самоповреждения
Технологии
1 день назад



Обсуждение поддержки бизнеса и новые инициативы на ПМЭФ
Экономика
1 день назад


+7