26 марта, 16:08
Новый тест ARC-AGI-2 выявил низкие результаты ИИ и людей в оценке интеллекта


Unlim AI
Все современные ИИ провалили новый сложный тест на общий интеллект Новый тест ARC-AGI-2, разработанный Фондом Arc Prize Foundation, поставил под сомнение способности актуальных моделей ИИ. Известные системы, такие как o1-pro от OpenAI, набрали всего от 1 до 1,3 %, а модели без логического мышления, включая GPT-4.5, — менее 1 %. В то же время люди, участвовавшие в испытаниях, ответили правильно в среднем на 60 % задач. Тест представляет собой серию головоломок, требующих распознавания визуальных закономерностей. Его цель — оценить адаптивность ИИ, исключив подход "методом грубой силы". Критики отмечают, что предыдущая версия теста, ARC-AGI-1, могла давать искаженные результаты из-за необходимых вычислительных затрат. Новый тест должен более точно оценивать "реальный интеллект" ИИ. Подробнее об этом можно узнать в блоге Arc Prize Foundation.
Технологии5 дней назад

Все о блокчейн/мозге/space/WEB 3.0 в России и мире
ARC-AGI-2 — новый тест на AGI, который бросает вызов системам рассуждений ИИ Исследовалтели выпустили ARC-AGI-2 новый набор задач, которые тестируют способность ИИ к абстрактному мышлению. ARC-AGI-2 в отличие от многих других бенчмарков, которые часто становятся "насыщенными" из-за специализированной оптимизации моделей, ARC фокусируется именно на фундаментальной способности к рассуждению. Отличие от предыдущей версии ARC-AGI-1 - новые задачи невозможно решить простым перебором вариантов. Доступны обычным людям, недоступны ведущим ИИ. Примечательно, что тестирование проводилось не на PhD в области математики или физики, а на обычных людях: водителях Uber, студентах, безработных и других, кто искал дополнительный заработок. А теперь самое интересное-результаты ведущих ИИ-систем на этом наборе задач: 1. Базовые LLM GPT-4.5, Claude 3.7 Sonnet, Gemini 2 : 0% 2. Модели с одиночным CoT-рассуждением Claude Thinking, R1, o3-mini : 0-1% 3. Лучшие специализированные модели: 3-4% Параллельно с выпуском ARC-AGI-2 запускается соревнование ARC Prize 2025 с главным призом $700,000 за достижение результата 85%, а также другими призами за промежуточные достижения. Соревнование будет проходить на платформе Kaggle. Участвовать могут модели, использующие менее $10,000 вычислительных ресурсов для решения 120 задач из полуприватного набора тестов.
Технологии5 дней назад


xCode Journal
Фонд Arc Prize представил новый AGI-тест Фонд Arc Prize, некоммерческая организация, сооснованная видным исследователем ИИ Франсуа Шолле, объявил в блоге в понедельник о создании нового, сложного теста для измерения общего интеллекта ведущих моделей искусственного интеллекта. Google прокомментировала удаление данных Maps Timeline Google прокомментировала удаление данных Maps Timeline у некоторых пользователей Google Maps. Данные утеряны безвозвратно, если пользователь не совершал резервного копирования. В Госдуме предложили ввести обязательную маркировку контента, созданного ИИ Введение обязательной маркировки контента, созданного с использованием искусственного интеллекта, должно стать первым шагом в регулировании этой технологии, считает заместитель председателя комитета Госдумы по информационной политике Андрей Свинцов ЛДПР , сообщили в ТАСС. xCode Journal
Технологии5 дней назад


Хайтек+
Все модели ИИ провалили новейший тест на общий интеллект Современные ИИ-модели провалили новый тест на общий интеллект ARC-AGI-2, разработанный некоммерческой организацией Arc Prize Foundation. Лучшие результаты моделей не превысили 1,3%, тогда как средний результат людей составил около 60%. Об этом заявил исследователь искусственного интеллекта и сооснователь фонда Франсуа Шолле, наиболее известный как создатель библиотеки глубокого обучения Keras.
Технологии4 дня назад


Мы из будущего
Большинство ИИ-моделей не справились с новым тестом Новый тест ARC-AGI-2, разработанный Arc Prize Foundation, поставил в тупик большинство ИИ-моделей: рассуждающие модели показали 1–1,3 %, а другие — менее 1 %. Тест состоит из головоломок, где искусственный интеллект должен распознавать визуальные закономерности и адаптироваться к новым задачам, исключая метод «грубой силы». В то же время более 400 человек в среднем правильно решили 60% заданий, что подчёркивает значительный разрыв между интеллектуальными способностями ИИ и людей. Мы из будущего
Технологии4 дня назад


Tokengram.ru
О проверках "дроповодов" и криптообменников и не только - на tokengram.ru
Реклама3 дня назад


CIO: канал IT руководителей
Тест не сдали // Хабр Фонд Arc Prize Foundation, некоммерческая организация, соучредителем которой является известный исследователь ИИ Франсуа Шолле, объявил в блоге, что создал новый сложный тест для измерения общего интеллекта ведущих моделей ИИ. На данный момент новый тест под названием ARC‑AGI-2 поставил в тупик большинство моделей. Модели ИИ, основанные на «рассуждении», такие как o1-pro от OpenAI и R1 от DeepSeek, набрали от 1% до 1,3% баллов в ARC‑AGI-2, согласно рейтингу Arc Prize. Мощные модели, не основанные на «рассуждении», такие как GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, набрали около 1%. Фонд Arc Prize попросил более 400 человек пройти тест ARC‑AGI-2, чтобы установить базовый уровень для людей. В среднем «группы» этих людей правильно ответили на 60% вопросов теста — намного лучше, чем у любой из моделей .
Технологии5 дней назад


ForkLog FEED
Новый тест поставил в тупик большинство ИИ-моделей Некоммерческая организация Arc Prize объявила о создании нового сложного теста для измерения интеллекта ведущих ИИ-моделей. Большинство нейросетей не смогли справиться с ARC-AGI-2. Его тесты состоят из похожих на головоломки задач, в которых искусственному интеллекту необходимо определить визуальные паттерны из набора разноцветных квадратов и сгенерировать правильную сетку ответа. Тест призван заставить ИИ адаптироваться к новым проблемам, с которыми он раньше не сталкивался. «Разумные» нейросети вроде o1-pro от OpenAI и R1 от DeepSeek набирают от 1% до 1,3% в ходе прохождения ARC-AGI-2. У мощных не рассуждающих искусственных интеллектов, таких как GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, показатель около 1%. Для сравнения, в среднем люди правильно отвечают на 60% вопросов. Для анализа фонд попросил пройти тест 400 человек. Новости AI YouTube
Технологии4 дня назад


Хайтек
Новый тест для ИИ поставил в тупик большинство моделей, включая GPT-4.5 и Claude 3.7. Люди продемонстрировали результат в 60%, а ИИ — менее 1%. Пу-пу-пу…
Технологии4 дня назад


КИБЕРФРОНТ 🇷🇺ZА Россию🇷🇺
Все современные ИИ-модели провалили новый тест на общий интеллект Лучшие результаты моделей не превысили 1,3%, тогда как средний результат людей составил около 60%. В тесте участвовали o1-pro от OpenAI, R1 от DeepSeek, GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash. Задача заключалась в том, чтобы распознавать визуальные паттерны среди цветных квадратов. Такой тест измеряет способность быстро адаптироваться к новым задачам, а не просто использовать уже известные данные. Сложности у ИИ возникли с интерпретацией символов и применением сразу нескольких правил. КИБЕРФРОНТ.
Технологии4 дня назад


NN
С этим тестом не справляются даже топовые модели OpenAI. Он называется ARC-AGI-2 и проверяет способность ИИ думать как человек. Модели o3-mini и GPT 4.5 решили этот тест на 0%. Топовая на данный момент o1-pro — 1%, а закрытая от публики o3 — 4%. Для сравнения, люди проходят его без подготовки и получают в среднем 60%. Секрет в абстрактном мышлении, с которым у нейросетей пока проблемы. Кажется, в ближайшее время ИИ не собирается обгонять человечество.
Технологии3 дня назад

Похожие новости



+3



+14



+11



+6



+9



+1

GigaChat от Сбера улучшает обслуживание пассажиров авиакомпании «Азимут»
Технологии
1 день назад




Билл Гейтс о будущем профессий в эпоху ИИ: три специальности останутся за людьми
Общество
23 часа назад




Центральный банк представляет аниме-версии своих руководителей на фоне изменений в доступе к генерации изображений OpenAI
Общество
1 день назад




Рост мемкойнов Ghibli на Solana после волны артов в соцсетях
Технологии
20 часов назад




Alibaba представляет Qwen2.5-Omni: ИИ для голосовых и видеозвонков
Технологии
1 день назад




Губернатор Ямала Дмитрий Артюхов о перспективах центров обработки данных в Арктике
Общество
13 часов назад


