

vc.ru
OpenAI протестировала GPT 5 Claude Opus 4 1 и другие модели на 1320 прикладных задачах 44 профессий Среди них разработчики юристы финансовые консультанты менеджеры по продажам и врачи 40 задач GPT 5 выполнила лучше или на уровне человека Claude Opus 4 1 49 vc ru ai 2236831
Технологии119 дней назад


Квест Теории Каст и Ролей
Интересно OpenAI создал GDPval TDLR ниже перевод статьи GDPval новый бенчмарк от OpenAI для измерения того как ИИ справляется с реальными экономически ценными задачами Основан на идее ВВП и охватывает 44 профессии в 9 ключевых отраслях США Как работает Включает 1320 задач созданных и проверенных экспертами с опытом 14 лет Задания максимально приближены к реальной работе юридические документы инженерные чертежи планы ухода за пациентами диалоги поддержки Форматы документы слайды таблицы мультимедиа Оценка Эксперты сравнивают вслепую работы людей и ИИ GPT 5 лидирует по точности Claude Opus 4 1 по оформлению С весны 2024 до лета 2025 качество работы моделей удвоилось Модели выполняют задачи 100x быстрее и дешевле людей без учёта надзора и интеграции Зачем GDPval показывает какие рутинные задачи ИИ может уже взять на себя освобождая людей для более творческой и ответственной работы Это может дать рост продуктивности и экономики Ограничения пока это одношаговые тесты не учитывающие итерации обратную связь и работу с неопределённостью Будущие версии будут расширяться и усложняться Статья openai com index gdpval Еще интересно Abundant Intelligence blog samaltman com abundant intelligence The Gentle Singularity blog samaltman com the gentle singularity
Технологии118 дней назад

concertzaal
OpenAI прогнали нейронки на 1 320 реальных задачах из 44 профессий от юристов и инженеров до медсестёр и риелторов Плохая новость для людей модели уже близки к уровню экспертов Это были тесты не на знание столиц а задачи за которые в реальной жизни платят деньги договоры отчёты диагнозы по фото анализ конкурентов и тд Часть задач модели делают в 100 раз быстрее и дешевле людей но конечно не без ошибок Лучшей оказалась Claude Opus 4 1 в 47 задач его решения признали лучшими чем у экспертов если ваша работа это тексты письма и таблички то GPT уже рядом без кофе сна и выгорания concertzaal
Технологии114 дня назад


IT и безопасность
Нейросети не способны заменить людей в 51 случаев Пока что OpenAI сделали новый бенчмарк под названием GDPval он оценивает способности нейронок в 44 различных профессиях и пока люди побеждают пусть и с небольшим отрывом Топовая на данный момент GPT 5 high от самих OpenAI набрала в этом тесте лишь 40 а лучше всех справилась Claude Opus 4 1 от Anthropic она оказалась на уровне или выше людей только в 49 случаев Отчёт OpenAI можно глянуть тут
Технологии119 дней назад


42 секунды
TechCrunch OpenAI разработала новый бенчмарк для проверки эффективности моделей ИИ GDPval позволяет сравнить ИИ и человеческий профессионализм Тест позволяет понять насколько ИИ способен превзойти людей GPT 5 и Claude Opus 4 1 почти соответствуют отраслевым экспертам Оценка GDPval основана на данных из девяти разных отраслей OpenAI отобрала топ 9 отраслей которые влияют на ВВП для США Среди отраслей здравоохранение финансы производство и др Эффективность ИИ оценивают по 44 профессиям из этих отраслей В рамках теста сравнивают отчеты составленные экспертами и ИИ Модель GPT 5 high в 40 6 случаев лучше отраслевых экспертов Показатель для Claude Opus 4 1 от Anthropic составляет уже 49 ftsec
Технологии116 дней назад


DNS_Club
OpenAI перечислила профессии где ChatGPT уже соперничает с людьми OpenAI опубликовала новое исследование GDPval в котором оценила работу своих моделей ИИ на реальных задачах из 44 профессий Цель показать насколько современные нейросети уже способны конкурировать с людьми в экономически значимых сферах Согласно результатам лучше всего модели проявили себя в рутинных и четко сформулированных задачах которые можно описать в виде конкретного задания
Технологии115 дней назад

Блохи в свитере
OpenAI представила новую систему оценки GDPval с помощью которой удалось раскрыть 44 профессии в которых ИИ приблизился к уровню людей экспертов В списке риэлторы юристы инженеры медсёстры фармацевты программисты финансовые аналитики соцработники и проч И кстати GPT 5 high соответствовала уровню экспертов более чем в 40 случаев а GPT 4o лишь в 13 7
Технологии114 дня назад

Первый Нейросетевой: IT & Digital
OpenAI прогнали нейронки на 1 320 реальных задачах из 44 профессий от юристов и инженеров до медсестёр и риелторов Плохая новость для людей модели уже близки к уровню экспертов Это были тесты не на знание столиц а задачи за которые в реальной жизни платят деньги договоры отчёты диагнозы по фото анализ конкурентов и тд Часть задач модели делают в 100 раз быстрее и дешевле людей но конечно не без ошибок Лучшей оказалась Claude Opus 4 1 в 47 задач его решения признали лучшими чем у экспертов если ваша работа это тексты письма и таблички то GPT уже рядом без кофе сна и выгорания Первый Нейросетевой
Технологии113 дня назад
Похожие новости











+2



+8



+2




Стартап Humans привлек 480 млн долларов на создание ИИ для взаимодействия с людьми
Технологии
1 день назад



Эксперты оценили влияние ИИ на рынок труда в России
Общество
2 часа назад



Институт Гайдара прогнозирует рост зарплат в промышленности благодаря роботизации
Экономика
1 день назад


+2
Элон Маск о будущем ИИ и гуманоидных роботах на ВЭФ в Давосе
Технологии
22 часа назад


+8
xAI разрабатывает эмуляторы человека, увольняя разработчика после раскрытия планов
Технологии
1 день назад


+2
Глава Google DeepMind оценил отставание китайских ИИ от западных в полгода
Технологии
1 день назад

