15 ноября, 17:38
Google DeepMind представляет экспериментальную модель Gemini, лидирующую в рейтинге чат-ботов


Data Secrets
Ночью Google появилась на Arena со своей новой экспериментальной моделью Gemini-Exp и… забрала первое место, стрельнув даже выше o1 и 4о Ждем от OpenAI мощную ответку
Технологии139 дней назад

Русскоязычное киберсообщество
А в мире чатботов назревает революция — Google DeepMind вчера выложили публично новую экспериментальную версию Gemini, которая уже анонимно тестировалась в Chatbot Arena и по результатам тестов она выходит на первое место, точнее, делит его с последней версией ChatGPT-4o. В написании кода у новой модели устойчивое третье место перед Claude-3.5-Sonnet впрочем, этому я как раз верю с трудом , в Hard Prompts делит первое место с o1-preview и o1-mini. Энтузиасты вовсю тестируют и шутят, что теперь уж нормальный релиз OpenAI o1 случится на днях.
Технологии139 дней назад


ChatGPT | Нейросети
Gemini обогнала ChatGPT и даже OpenAI Экспериментальная модель Gemini-Exp-1114 смогла набрать самое большое количество баллов в популярных бенчмарках. Chatbot Arena — платформа для сравнения нейросетей. По ее данным новинка оказалась самой мощной среди всех аналогов. Разработка Google набрала 1344 очков. Это на четыре больше, чем у последней версии GPT-4o, и на 11 — чем у o1-preview. Для сравнения, у наиболее свежего релиза Gemini 1.5 Pro сейчас 1301 балл. В России нейросети американской компании нельзя открыть без VPN из-за ограничений со стороны техногиганта. Также российские пользователи не могут скачать фирменное приложение Gemini для iOS, но есть неплохая замена прямо в телеграмме — Gemini мощь ChatGPT Нейросети
Технологии137 дней назад


Нейроскептик
Ещё один прорыв года в первой десятке рейтинга оценки лидеров LLM от LMSYS Теперь и новая модель Gemini-Exp-1114 от Google смогла сразу же сместить все модели OpenAI и встать на первую строчку чатбот арены. Напомню, аналогичное продвижение до высшей позиции в рейтинге было осуществлено третьим Клодом Opus от Anthropic в марте этого года. Но тогда модель постепенно двигалась вверх и продержалась на первом месте меньше месяца. По информации от Гугла и согласно бенчмаркам, новая LLM особенно хорошо справляется с техническими и творческими задачами. Gemini-Exp-1114 должна быть полезна для рассуждений и управления агентами. Ещё новая модель способна эффективно решать сложные задачи по математике, умеет в «творческое письмо» и визуализацию. Очень интересно сколько времени Gemini-Exp-1114 продержится на первом месте и чем ответит OpenAI? Продолжаем наблюдать Методы оценки: Arena Score — рейтинг на основе более 2,23 млн анонимных голосов Chatbot Arena эталонная платформа для больших языковых моделей ; MT-Bench score — оценка с помощью судейства LLM; MMLU — тест для измерения точности понимания языка при многозадачности текстовой модели, включает 57 задач.
Технологии134 дня назад


NeuroTrends | Ai News
Gemini обогнала ChatGPT и даже OpenAI Экспериментальная модель Gemini-Exp-1114 смогла набрать самое большое количество баллов в популярных бенчмарках. Chatbot Arena — платформа для сравнения нейросетей. По ее данным новинка оказалась самой мощной среди всех аналогов. Разработка Google набрала 1344 очков. Это на четыре больше, чем у последней версии GPT-4o, и на 11 — чем у o1-preview. Для сравнения, у наиболее свежего релиза Gemini 1.5 Pro сейчас 1301 балл. В России нейросети американской компании нельзя открыть без VPN из-за ограничений со стороны техногиганта. — Gemini мощь NeuroTrends
Технологии130 дней назад


БлоGнот
А в мире чатботов назревает революция — Google DeepMind вчера выложили публично новую экспериментальную версию Gemini, которая уже анонимно тестировалась в Chatbot Arena и по результатам тестов она выходит на первое место, точнее, делит его с последней версией ChatGPT-4o. В написании кода у новой модели устойчивое третье место перед Claude-3.5-Sonnet впрочем, этому я как раз верю с трудом , в Hard Prompts делит первое место с o1-preview и o1-mini. Энтузиасты вовсю тестируют и шутят, что теперь уж нормальный релиз OpenAI o1 случится на днях.
Технологии139 дней назад


AI Product | Igor Akimov
И снова про конкуренцию. OpenAI пора новую модель выпускать, конкуренты догоняют. NexusFlow зафайнтюнили Qwen-2.5 и поднялись практически по всем метрикам в модели на 72B параметров. Выложили 2 модельки: Athene-V2-Chat-72B: уровня GPT-4o. Она превосходит GPT-4o в полезности чата Arena-Hard , в кодировании заняв второе место в bigcode-bench-hard , математике MATH и обрабатывает длинные логи с более высокой точностью наш внутренний бенчмарк . Athene-V2-Agent-72B: балансируя между возможностями чата и агента, эта модель предлагает лаконичные, директивные ответы в чате, превосходя GPT-4o в наших последних бенчмарках Nexus-V2 по вызову функций, ориентированных на сложные случаи использования функций на уровне предприятия.
Технологии139 дней назад


PROJECT+ | Нейросети
Gemini обогнала ChatGPT и даже OpenAI Экспериментальная модель Gemini-Exp-1114 смогла набрать самое большое количество баллов в популярных бенчмарках. Chatbot Arena — платформа для сравнения нейросетей. По ее данным новинка оказалась самой мощной среди всех аналогов. Разработка Google набрала 1344 очков. Это на четыре больше, чем у последней версии GPT-4o, и на 11 — чем у o1-preview. Для сравнения, у наиболее свежего релиза Gemini 1.5 Pro сейчас 1301 балл. #News Подписаться
Технологии137 дней назад


Нейроскептик
Противостояние в первой десятке рейтинга лидеров LLM от LMSYS нарастает. Google не стала долго ждать и вслед за OpenAI выкатила ещё одну свою LLM - Gemini-Exp-1121, которая сразу же заняла первое место. На скринах видно на каких бенчмарках модели сильнее. Gemini-Exp-1121 по рангу практически сильна на всех тестах. Но по скору уже не всё так однозначно, например в кодинге оказалось, что лучше всех вообще o1-mini. В общем продолжаем наблюдать, интрига остаётся. Правда сейчас в общей таблице первой десятки остались модели только двух ИИ-гигантов. Будем надеяться, что и другие участники Арены смогут своими новыми LLM осуществить прорыв Методы оценки: Arena Score — рейтинг на основе анонимных голосов Chatbot Arena эталонная платформа для больших языковых моделей ; Общее количество голосов: 2 280 672; Общее количество моделей: 167.
Технологии132 дня назад
Похожие новости



+8



+6



+16



+4



+1



+2

OpenAI анонсирует выпуск новой языковой модели с открытыми весами
Технологии
1 день назад




Google делает модель Gemini 2.5 Pro бесплатной для всех пользователей
Технологии
1 день назад




OpenAI запускает генератор изображений на базе GPT-4o для всех пользователей
Технологии
1 день назад




Китайский DeepSeek обгоняет ChatGPT по посещаемости и становится лидером в сфере ИИ
Технологии
1 день назад




OpenAI привлекла $40 млрд, став вторым по стоимости стартапом после SpaceX
Экономика
15 часов назад




Krea AI запускает генератор 3D-моделей из фото и текста
Технологии
1 день назад


