27 сентября, 03:03

OpenAI представила бенчмарк GDPval, оценивающий ИИ в 44 профессиях

OpenAI протестировала GPT 5 Claude Opus 4 1 и другие модели на 1320 прикладных задачах 44 профессий Среди них разработчики юристы финансовые консультанты менеджеры по продажам и врачи 40 задач GPT 5 выполнила лучше или на уровне человека Claude Opus 4 1 49 vc ru ai 2236831
vc.ru
vc.ru
OpenAI протестировала GPT 5 Claude Opus 4 1 и другие модели на 1320 прикладных задачах 44 профессий Среди них разработчики юристы финансовые консультанты менеджеры по продажам и врачи 40 задач GPT 5 выполнила лучше или на уровне человека Claude Opus 4 1 49 vc ru ai 2236831
Интересно OpenAI создал GDPval TDLR ниже перевод статьи GDPval новый бенчмарк от OpenAI для измерения того как ИИ справляется с реальными экономически ценными задачами Основан на идее ВВП и охватывает 44 профессии в 9 ключевых отраслях США Как работает Включает 1320 задач созданных и проверенных экспертами с опытом 14 лет Задания максимально приближены к реальной работе юридические документы инженерные чертежи планы ухода за пациентами диалоги поддержки Форматы документы слайды таблицы мультимедиа Оценка Эксперты сравнивают вслепую работы людей и ИИ GPT 5 лидирует по точности Claude Opus 4 1 по оформлению С весны 2024 до лета 2025 качество работы моделей удвоилось Модели выполняют задачи 100x быстрее и дешевле людей без учёта надзора и интеграции Зачем GDPval показывает какие рутинные задачи ИИ может уже взять на себя освобождая людей для более творческой и ответственной работы Это может дать рост продуктивности и экономики Ограничения пока это одношаговые тесты не учитывающие итерации обратную связь и работу с неопределённостью Будущие версии будут расширяться и усложняться Статья   openai com index gdpval Еще интересно Abundant Intelligence   blog samaltman com abundant intelligence The Gentle Singularity   blog samaltman com the gentle singularity
Квест Теории Каст и Ролей
Квест Теории Каст и Ролей
Интересно OpenAI создал GDPval TDLR ниже перевод статьи GDPval новый бенчмарк от OpenAI для измерения того как ИИ справляется с реальными экономически ценными задачами Основан на идее ВВП и охватывает 44 профессии в 9 ключевых отраслях США Как работает Включает 1320 задач созданных и проверенных экспертами с опытом 14 лет Задания максимально приближены к реальной работе юридические документы инженерные чертежи планы ухода за пациентами диалоги поддержки Форматы документы слайды таблицы мультимедиа Оценка Эксперты сравнивают вслепую работы людей и ИИ GPT 5 лидирует по точности Claude Opus 4 1 по оформлению С весны 2024 до лета 2025 качество работы моделей удвоилось Модели выполняют задачи 100x быстрее и дешевле людей без учёта надзора и интеграции Зачем GDPval показывает какие рутинные задачи ИИ может уже взять на себя освобождая людей для более творческой и ответственной работы Это может дать рост продуктивности и экономики Ограничения пока это одношаговые тесты не учитывающие итерации обратную связь и работу с неопределённостью Будущие версии будут расширяться и усложняться Статья openai com index gdpval Еще интересно Abundant Intelligence blog samaltman com abundant intelligence The Gentle Singularity blog samaltman com the gentle singularity
concertzaal
concertzaal
OpenAI прогнали нейронки на 1 320 реальных задачах из 44 профессий от юристов и инженеров до медсестёр и риелторов Плохая новость для людей модели уже близки к уровню экспертов Это были тесты не на знание столиц а задачи за которые в реальной жизни платят деньги договоры отчёты диагнозы по фото анализ конкурентов и тд Часть задач модели делают в 100 раз быстрее и дешевле людей но конечно не без ошибок Лучшей оказалась Claude Opus 4 1 в 47 задач его решения признали лучшими чем у экспертов если ваша работа это тексты письма и таблички то GPT уже рядом без кофе сна и выгорания concertzaal
Нейросети не способны заменить людей в 51 случаев Пока что OpenAI сделали новый бенчмарк под названием GDPval он оценивает способности нейронок в 44 различных профессиях и пока люди побеждают пусть и с небольшим отрывом Топовая на данный момент GPT 5 high от самих OpenAI набрала в этом тесте лишь 40 а лучше всех справилась Claude Opus 4 1 от Anthropic она оказалась на уровне или выше людей только в 49 случаев Отчёт OpenAI можно глянуть тут
IT и безопасность
IT и безопасность
Нейросети не способны заменить людей в 51 случаев Пока что OpenAI сделали новый бенчмарк под названием GDPval он оценивает способности нейронок в 44 различных профессиях и пока люди побеждают пусть и с небольшим отрывом Топовая на данный момент GPT 5 high от самих OpenAI набрала в этом тесте лишь 40 а лучше всех справилась Claude Opus 4 1 от Anthropic она оказалась на уровне или выше людей только в 49 случаев Отчёт OpenAI можно глянуть тут
TechCrunch OpenAI разработала новый бенчмарк для проверки эффективности моделей ИИ GDPval позволяет сравнить ИИ и человеческий профессионализм Тест позволяет понять насколько ИИ способен превзойти людей GPT 5 и Claude Opus 4 1 почти соответствуют отраслевым экспертам Оценка GDPval основана на данных из девяти разных отраслей OpenAI отобрала топ 9 отраслей которые влияют на ВВП для США Среди отраслей здравоохранение финансы производство и др Эффективность ИИ оценивают по 44 профессиям из этих отраслей В рамках теста сравнивают отчеты составленные экспертами и ИИ Модель GPT 5 high в 40 6 случаев лучше отраслевых экспертов Показатель для Claude Opus 4 1 от Anthropic составляет уже 49 ftsec
42 секунды
42 секунды
TechCrunch OpenAI разработала новый бенчмарк для проверки эффективности моделей ИИ GDPval позволяет сравнить ИИ и человеческий профессионализм Тест позволяет понять насколько ИИ способен превзойти людей GPT 5 и Claude Opus 4 1 почти соответствуют отраслевым экспертам Оценка GDPval основана на данных из девяти разных отраслей OpenAI отобрала топ 9 отраслей которые влияют на ВВП для США Среди отраслей здравоохранение финансы производство и др Эффективность ИИ оценивают по 44 профессиям из этих отраслей В рамках теста сравнивают отчеты составленные экспертами и ИИ Модель GPT 5 high в 40 6 случаев лучше отраслевых экспертов Показатель для Claude Opus 4 1 от Anthropic составляет уже 49 ftsec
OpenAI перечислила профессии где ChatGPT уже соперничает с людьми OpenAI опубликовала новое исследование GDPval в котором оценила работу своих моделей ИИ на реальных задачах из 44 профессий Цель показать насколько современные нейросети уже способны конкурировать с людьми в экономически значимых сферах Согласно результатам лучше всего модели проявили себя в рутинных и четко сформулированных задачах которые можно описать в виде конкретного задания
DNS_Club
DNS_Club
OpenAI перечислила профессии где ChatGPT уже соперничает с людьми OpenAI опубликовала новое исследование GDPval в котором оценила работу своих моделей ИИ на реальных задачах из 44 профессий Цель показать насколько современные нейросети уже способны конкурировать с людьми в экономически значимых сферах Согласно результатам лучше всего модели проявили себя в рутинных и четко сформулированных задачах которые можно описать в виде конкретного задания
Блохи в свитере
Блохи в свитере
OpenAI представила новую систему оценки GDPval с помощью которой удалось раскрыть 44 профессии в которых ИИ приблизился к уровню людей экспертов В списке риэлторы юристы инженеры медсёстры фармацевты программисты финансовые аналитики соцработники и проч И кстати GPT 5 high соответствовала уровню экспертов более чем в 40 случаев а GPT 4o лишь в 13 7
Первый Нейросетевой: IT & Digital
Первый Нейросетевой: IT & Digital
OpenAI прогнали нейронки на 1 320 реальных задачах из 44 профессий от юристов и инженеров до медсестёр и риелторов Плохая новость для людей модели уже близки к уровню экспертов Это были тесты не на знание столиц а задачи за которые в реальной жизни платят деньги договоры отчёты диагнозы по фото анализ конкурентов и тд Часть задач модели делают в 100 раз быстрее и дешевле людей но конечно не без ошибок Лучшей оказалась Claude Opus 4 1 в 47 задач его решения признали лучшими чем у экспертов если ваша работа это тексты письма и таблички то GPT уже рядом без кофе сна и выгорания Первый Нейросетевой