OpenAI представила бенчмарк GDPval, оценивающий ИИ в 44 профессиях

vc.ru

OpenAI протестировала GPT 5 Claude Opus 4 1 и другие модели на 1320 прикладных задачах 44 профессий Среди них разработчики юристы финансовые консультанты менеджеры по продажам и врачи 40 задач GPT 5 выполнила лучше или на уровне человека Claude Opus 4 1 49 vc ru ai 2236831

Технологии227 дней назад

Квест Теории Каст и Ролей

Интересно OpenAI создал GDPval TDLR ниже перевод статьи GDPval новый бенчмарк от OpenAI для измерения того как ИИ справляется с реальными экономически ценными задачами Основан на идее ВВП и охватывает 44 профессии в 9 ключевых отраслях США Как работает Включает 1320 задач созданных и проверенных экспертами с опытом 14 лет Задания максимально приближены к реальной работе юридические документы инженерные чертежи планы ухода за пациентами диалоги поддержки Форматы документы слайды таблицы мультимедиа Оценка Эксперты сравнивают вслепую работы людей и ИИ GPT 5 лидирует по точности Claude Opus 4 1 по оформлению С весны 2024 до лета 2025 качество работы моделей удвоилось Модели выполняют задачи 100x быстрее и дешевле людей без учёта надзора и интеграции Зачем GDPval показывает какие рутинные задачи ИИ может уже взять на себя освобождая людей для более творческой и ответственной работы Это может дать рост продуктивности и экономики Ограничения пока это одношаговые тесты не учитывающие итерации обратную связь и работу с неопределённостью Будущие версии будут расширяться и усложняться Статья openai com index gdpval Еще интересно Abundant Intelligence blog samaltman com abundant intelligence The Gentle Singularity blog samaltman com the gentle singularity

Технологии225 дней назад

concertzaal

OpenAI прогнали нейронки на 1 320 реальных задачах из 44 профессий от юристов и инженеров до медсестёр и риелторов Плохая новость для людей модели уже близки к уровню экспертов Это были тесты не на знание столиц а задачи за которые в реальной жизни платят деньги договоры отчёты диагнозы по фото анализ конкурентов и тд Часть задач модели делают в 100 раз быстрее и дешевле людей но конечно не без ошибок Лучшей оказалась Claude Opus 4 1 в 47 задач его решения признали лучшими чем у экспертов если ваша работа это тексты письма и таблички то GPT уже рядом без кофе сна и выгорания concertzaal

Технологии221 день назад

IT и безопасность

Нейросети не способны заменить людей в 51 случаев Пока что OpenAI сделали новый бенчмарк под названием GDPval он оценивает способности нейронок в 44 различных профессиях и пока люди побеждают пусть и с небольшим отрывом Топовая на данный момент GPT 5 high от самих OpenAI набрала в этом тесте лишь 40 а лучше всех справилась Claude Opus 4 1 от Anthropic она оказалась на уровне или выше людей только в 49 случаев Отчёт OpenAI можно глянуть тут

Технологии226 дней назад

42 секунды

TechCrunch OpenAI разработала новый бенчмарк для проверки эффективности моделей ИИ GDPval позволяет сравнить ИИ и человеческий профессионализм Тест позволяет понять насколько ИИ способен превзойти людей GPT 5 и Claude Opus 4 1 почти соответствуют отраслевым экспертам Оценка GDPval основана на данных из девяти разных отраслей OpenAI отобрала топ 9 отраслей которые влияют на ВВП для США Среди отраслей здравоохранение финансы производство и др Эффективность ИИ оценивают по 44 профессиям из этих отраслей В рамках теста сравнивают отчеты составленные экспертами и ИИ Модель GPT 5 high в 40 6 случаев лучше отраслевых экспертов Показатель для Claude Opus 4 1 от Anthropic составляет уже 49 ftsec

Технологии223 дня назад

DNS_Club

OpenAI перечислила профессии где ChatGPT уже соперничает с людьми OpenAI опубликовала новое исследование GDPval в котором оценила работу своих моделей ИИ на реальных задачах из 44 профессий Цель показать насколько современные нейросети уже способны конкурировать с людьми в экономически значимых сферах Согласно результатам лучше всего модели проявили себя в рутинных и четко сформулированных задачах которые можно описать в виде конкретного задания

Технологии222 дня назад

Блохи в свитере

OpenAI представила новую систему оценки GDPval с помощью которой удалось раскрыть 44 профессии в которых ИИ приблизился к уровню людей экспертов В списке риэлторы юристы инженеры медсёстры фармацевты программисты финансовые аналитики соцработники и проч И кстати GPT 5 high соответствовала уровню экспертов более чем в 40 случаев а GPT 4o лишь в 13 7

Технологии221 день назад

Первый Нейросетевой: IT & Digital

Технологии220 дней назад

OpenAI представила бенчмарк GDPval, оценивающий ИИ в 44 профессиях

Источники

Павел Дуров анонсировал успех TON в стейкинге среди криптовалют

Инвестиции в ИИ приводят к снижению свободного денежного потока у американских IT гигантов

Исследование: Мозг продолжает воспринимать речь под наркозом

В Италии зафиксирован первый случай лечения зависимости от искусственного интеллекта

Исследование мозга заключённых выявило нейробиологические маркеры психопатии

Дуров анонсирует обновление опросов в Telegram для повышения достоверности результатов