

vc.ru
OpenAI протестировала GPT 5 Claude Opus 4 1 и другие модели на 1320 прикладных задачах 44 профессий Среди них разработчики юристы финансовые консультанты менеджеры по продажам и врачи 40 задач GPT 5 выполнила лучше или на уровне человека Claude Opus 4 1 49 vc ru ai 2236831
Технологии49 дней назад


Квест Теории Каст и Ролей
Интересно OpenAI создал GDPval TDLR ниже перевод статьи GDPval новый бенчмарк от OpenAI для измерения того как ИИ справляется с реальными экономически ценными задачами Основан на идее ВВП и охватывает 44 профессии в 9 ключевых отраслях США Как работает Включает 1320 задач созданных и проверенных экспертами с опытом 14 лет Задания максимально приближены к реальной работе юридические документы инженерные чертежи планы ухода за пациентами диалоги поддержки Форматы документы слайды таблицы мультимедиа Оценка Эксперты сравнивают вслепую работы людей и ИИ GPT 5 лидирует по точности Claude Opus 4 1 по оформлению С весны 2024 до лета 2025 качество работы моделей удвоилось Модели выполняют задачи 100x быстрее и дешевле людей без учёта надзора и интеграции Зачем GDPval показывает какие рутинные задачи ИИ может уже взять на себя освобождая людей для более творческой и ответственной работы Это может дать рост продуктивности и экономики Ограничения пока это одношаговые тесты не учитывающие итерации обратную связь и работу с неопределённостью Будущие версии будут расширяться и усложняться Статья openai com index gdpval Еще интересно Abundant Intelligence blog samaltman com abundant intelligence The Gentle Singularity blog samaltman com the gentle singularity
Технологии48 дней назад

concertzaal
OpenAI прогнали нейронки на 1 320 реальных задачах из 44 профессий от юристов и инженеров до медсестёр и риелторов Плохая новость для людей модели уже близки к уровню экспертов Это были тесты не на знание столиц а задачи за которые в реальной жизни платят деньги договоры отчёты диагнозы по фото анализ конкурентов и тд Часть задач модели делают в 100 раз быстрее и дешевле людей но конечно не без ошибок Лучшей оказалась Claude Opus 4 1 в 47 задач его решения признали лучшими чем у экспертов если ваша работа это тексты письма и таблички то GPT уже рядом без кофе сна и выгорания concertzaal
Технологии43 дня назад


IT и безопасность
Нейросети не способны заменить людей в 51 случаев Пока что OpenAI сделали новый бенчмарк под названием GDPval он оценивает способности нейронок в 44 различных профессиях и пока люди побеждают пусть и с небольшим отрывом Топовая на данный момент GPT 5 high от самих OpenAI набрала в этом тесте лишь 40 а лучше всех справилась Claude Opus 4 1 от Anthropic она оказалась на уровне или выше людей только в 49 случаев Отчёт OpenAI можно глянуть тут
Технологии48 дней назад


42 секунды
TechCrunch OpenAI разработала новый бенчмарк для проверки эффективности моделей ИИ GDPval позволяет сравнить ИИ и человеческий профессионализм Тест позволяет понять насколько ИИ способен превзойти людей GPT 5 и Claude Opus 4 1 почти соответствуют отраслевым экспертам Оценка GDPval основана на данных из девяти разных отраслей OpenAI отобрала топ 9 отраслей которые влияют на ВВП для США Среди отраслей здравоохранение финансы производство и др Эффективность ИИ оценивают по 44 профессиям из этих отраслей В рамках теста сравнивают отчеты составленные экспертами и ИИ Модель GPT 5 high в 40 6 случаев лучше отраслевых экспертов Показатель для Claude Opus 4 1 от Anthropic составляет уже 49 ftsec
Технологии45 дней назад


DNS_Club
OpenAI перечислила профессии где ChatGPT уже соперничает с людьми OpenAI опубликовала новое исследование GDPval в котором оценила работу своих моделей ИИ на реальных задачах из 44 профессий Цель показать насколько современные нейросети уже способны конкурировать с людьми в экономически значимых сферах Согласно результатам лучше всего модели проявили себя в рутинных и четко сформулированных задачах которые можно описать в виде конкретного задания
Технологии44 дня назад

Блохи в свитере
OpenAI представила новую систему оценки GDPval с помощью которой удалось раскрыть 44 профессии в которых ИИ приблизился к уровню людей экспертов В списке риэлторы юристы инженеры медсёстры фармацевты программисты финансовые аналитики соцработники и проч И кстати GPT 5 high соответствовала уровню экспертов более чем в 40 случаев а GPT 4o лишь в 13 7
Технологии43 дня назад

Первый Нейросетевой: IT & Digital
OpenAI прогнали нейронки на 1 320 реальных задачах из 44 профессий от юристов и инженеров до медсестёр и риелторов Плохая новость для людей модели уже близки к уровню экспертов Это были тесты не на знание столиц а задачи за которые в реальной жизни платят деньги договоры отчёты диагнозы по фото анализ конкурентов и тд Часть задач модели делают в 100 раз быстрее и дешевле людей но конечно не без ошибок Лучшей оказалась Claude Opus 4 1 в 47 задач его решения признали лучшими чем у экспертов если ваша работа это тексты письма и таблички то GPT уже рядом без кофе сна и выгорания Первый Нейросетевой
Технологии42 дня назад
Похожие новости



+27
![Аватар Телеграм канала: [netstalkers]](https://content.tek.fm/05485546-561f-4e97-b7a8-f2569a88d71c.jpg)


+6



+1



+12



+1




OpenAI анонсировала выпуск GPT-5.1 с улучшенной персонализацией
Технологии
1 день назад


+27
OpenAI тратит миллионы на генерацию видео, несмотря на растущие расходы
Технологии
1 день назад![Аватар Телеграм канала: [netstalkers]](https://content.tek.fm/05485546-561f-4e97-b7a8-f2569a88d71c.jpg)


+6
Baidu представила мультимодальную ИИ модель ERNIE 4 5 VL, превосходящую конкурентов
Технологии
1 день назад


+1
Яндекс Образование запускает новое направление в ИИ и робототехнике на конференции YaC E 2025
Общество
18 часов назад


+12
Инвестиции в искусственный интеллект в России: прогнозы и подготовка специалистов к 2030 году
Общество
1 день назад


+1
ElevenLabs представили Scribe v2 Realtime для точной расшифровки речи
Технологии
1 день назад

