20 февраля, 19:24

Искусственный интеллект протестирован на 1400 задачах Upwork с разными результатами

Может ли ИИ заменить разработчиков? OpenAI проверили на реальных деньгах.  OpenAI представили SWE-Lancer — новый бенчмарк, который оценивает не только код, а его реальный экономический эффект.   Как проверяли: — взяли 1488 реальных задач с Upwork разной стоимости и сложности; — проверили, какие из них могут выполнить LLM; — посчитали, сколько денег “заработают” модели.  Результаты: — Claude 3.5 Sonnet — $403 000; — o1 high compute — $380 000; — GPT-4o — $304 000.    Пока ни одна модель не справляется с фриланс-задачами на уровне человека, но цифры впечатляют: LLM уже могут выполнять до 40% заказов.  Следующий шаг — OpenAI планируют использовать SWE-Lancer не только для оценки возможностей ИИ, но и для анализа безопасности автономных AI-агентов в программировании.    Читайте полное исследование   Ваше мнение: когда ИИ догонит фриланс-разработчиков?    Уже через пару лет   Пока ИИ не понимает требования бизнеса — никогда
MTS AI
MTS AI
Может ли ИИ заменить разработчиков? OpenAI проверили на реальных деньгах. OpenAI представили SWE-Lancer — новый бенчмарк, который оценивает не только код, а его реальный экономический эффект. Как проверяли: — взяли 1488 реальных задач с Upwork разной стоимости и сложности; — проверили, какие из них могут выполнить LLM; — посчитали, сколько денег “заработают” модели. Результаты: — Claude 3.5 Sonnet — $403 000; — o1 high compute — $380 000; — GPT-4o — $304 000. Пока ни одна модель не справляется с фриланс-задачами на уровне человека, но цифры впечатляют: LLM уже могут выполнять до 40% заказов. Следующий шаг — OpenAI планируют использовать SWE-Lancer не только для оценки возможностей ИИ, но и для анализа безопасности автономных AI-агентов в программировании. Читайте полное исследование Ваше мнение: когда ИИ догонит фриланс-разработчиков? Уже через пару лет Пока ИИ не понимает требования бизнеса — никогда
Подарок, который растёт в цене! Криптосертификат BTC Card на 23 февраля
₿tc-card.com
₿tc-card.com
Подарок, который растёт в цене! Криптосертификат BTC Card на 23 февраля
Исследователи OpenAI дали GPT-4o, o1 и Claude 3.5 Sonnet более 1400 реальных задач для разработчиков с американской фриланс-биржи Upwork. Модели не смогли выполнить «большинство» из них.  Больше всех «заработал» бы Claude 3.5 Sonnet — $403 тысячи из $1 млн возможных  vc.ru/chatgpt/1822759
vc.ru
vc.ru
Исследователи OpenAI дали GPT-4o, o1 и Claude 3.5 Sonnet более 1400 реальных задач для разработчиков с американской фриланс-биржи Upwork. Модели не смогли выполнить «большинство» из них. Больше всех «заработал» бы Claude 3.5 Sonnet — $403 тысячи из $1 млн возможных vc.ru/chatgpt/1822759
ИИ отправили на работу  OpenAI представила новый бенчмарк SWE-Lancer.    Предназначен для оценки возможностей больших языковых моделей  LLM  в выполнении реальных задач по программированию.    Включает 1400 индивидуальных инженерных и управленческих задач с платформы Upwork.  Испытания показали, что современные модели пока не способны выполнять большинство заданий. Лучшая из протестированных моделей, Claude 3.5 Sonnet, смогла заработать $208 тыс. на подмножестве задач стоимостью $500,8 тыс., но ее возможности остаются ограниченными.   Исследователи OpenAI считают, что SWE-Lancer позволит глубже изучить экономическое влияние ИИ в сфере программирования и определить его потенциал в качестве инструмента для выполнения задач для фрилансеров.
Большой брат
Большой брат
ИИ отправили на работу OpenAI представила новый бенчмарк SWE-Lancer. Предназначен для оценки возможностей больших языковых моделей LLM в выполнении реальных задач по программированию. Включает 1400 индивидуальных инженерных и управленческих задач с платформы Upwork. Испытания показали, что современные модели пока не способны выполнять большинство заданий. Лучшая из протестированных моделей, Claude 3.5 Sonnet, смогла заработать $208 тыс. на подмножестве задач стоимостью $500,8 тыс., но ее возможности остаются ограниченными. Исследователи OpenAI считают, что SWE-Lancer позволит глубже изучить экономическое влияние ИИ в сфере программирования и определить его потенциал в качестве инструмента для выполнения задач для фрилансеров.