15 ноября, 17:38

Google DeepMind представляет экспериментальную модель Gemini, лидирующую в рейтинге чат-ботов

Подготовлено редакцией Tek.fmДайджест Telegram-каналов

#OpenAI #Google Ai Studio #Google DeepMind

Ночью Google появилась на Arena со своей новой экспериментальной моделью Gemini-Exp и… забрала первое место, стрельнув даже выше o1 и 4о Ждем от OpenAI мощную ответку

Технологии540 дней назад

Gemini обогнала ChatGPT и даже OpenAI Экспериментальная модель Gemini-Exp-1114 смогла набрать самое большое количество баллов в популярных бенчмарках. Chatbot Arena — платформа для сравнения нейросетей. По ее данным новинка оказалась самой мощной среди всех аналогов. Разработка Google набрала 1344 очков. Это на четыре больше, чем у последней версии GPT-4o, и на 11 — чем у o1-preview. Для сравнения, у наиболее свежего релиза Gemini 1.5 Pro сейчас 1301 балл. В России нейросети американской компании нельзя открыть без VPN из-за ограничений со стороны техногиганта. Также российские пользователи не могут скачать фирменное приложение Gemini для iOS, но есть неплохая замена прямо в телеграмме — Gemini мощь ChatGPT Нейросети

ChatGPT | Нейросети

Gemini обогнала ChatGPT и даже OpenAI Экспериментальная модель Gemini-Exp-1114 смогла набрать самое большое количество баллов в популярных бенчмарках. Chatbot Arena — платформа для сравнения нейросетей. По ее данным новинка оказалась самой мощной среди всех аналогов. Разработка Google набрала 1344 очков. Это на четыре больше, чем у последней версии GPT-4o, и на 11 — чем у o1-preview. Для сравнения, у наиболее свежего релиза Gemini 1.5 Pro сейчас 1301 балл. В России нейросети американской компании нельзя открыть без VPN из-за ограничений со стороны техногиганта. Также российские пользователи не могут скачать фирменное приложение Gemini для iOS, но есть неплохая замена прямо в телеграмме — Gemini мощь ChatGPT Нейросети

Технологии538 дней назад

PROJECT+ | Нейросети

Технологии537 дней назад

Противостояние в первой десятке рейтинга лидеров LLM от LMSYS нарастает. Google не стала долго ждать и вслед за OpenAI выкатила ещё одну свою LLM - Gemini-Exp-1121, которая сразу же заняла первое место. На скринах видно на каких бенчмарках модели сильнее. Gemini-Exp-1121 по рангу практически сильна на всех тестах. Но по скору уже не всё так однозначно, например в кодинге оказалось, что лучше всех вообще o1-mini. В общем продолжаем наблюдать, интрига остаётся. Правда сейчас в общей таблице первой десятки остались модели только двух ИИ-гигантов. Будем надеяться, что и другие участники Арены смогут своими новыми LLM осуществить прорыв Методы оценки: Arena Score — рейтинг на основе анонимных голосов Chatbot Arena эталонная платформа для больших языковых моделей ; Общее количество голосов: 2 280 672; Общее количество моделей: 167.

Нейроскептик

Противостояние в первой десятке рейтинга лидеров LLM от LMSYS нарастает. Google не стала долго ждать и вслед за OpenAI выкатила ещё одну свою LLM - Gemini-Exp-1121, которая сразу же заняла первое место. На скринах видно на каких бенчмарках модели сильнее. Gemini-Exp-1121 по рангу практически сильна на всех тестах. Но по скору уже не всё так однозначно, например в кодинге оказалось, что лучше всех вообще o1-mini. В общем продолжаем наблюдать, интрига остаётся. Правда сейчас в общей таблице первой десятки остались модели только двух ИИ-гигантов. Будем надеяться, что и другие участники Арены смогут своими новыми LLM осуществить прорыв Методы оценки: Arena Score — рейтинг на основе анонимных голосов Chatbot Arena эталонная платформа для больших языковых моделей ; Общее количество голосов: 2 280 672; Общее количество моделей: 167.

Технологии532 дня назад

БлоGнот

А в мире чатботов назревает революция — Google DeepMind вчера выложили публично новую экспериментальную версию Gemini, которая уже анонимно тестировалась в Chatbot Arena и по результатам тестов она выходит на первое место, точнее, делит его с последней версией ChatGPT-4o. В написании кода у новой модели устойчивое третье место перед Claude-3.5-Sonnet впрочем, этому я как раз верю с трудом , в Hard Prompts делит первое место с o1-preview и o1-mini. Энтузиасты вовсю тестируют и шутят, что теперь уж нормальный релиз OpenAI o1 случится на днях.

Технологии539 дней назад

Русскоязычное киберсообщество

Технологии539 дней назад

И снова про конкуренцию. OpenAI пора новую модель выпускать, конкуренты догоняют. NexusFlow зафайнтюнили Qwen-2.5 и поднялись практически по всем метрикам в модели на 72B параметров. Выложили 2 модельки: Athene-V2-Chat-72B: уровня GPT-4o. Она превосходит GPT-4o в полезности чата Arena-Hard , в кодировании заняв второе место в bigcode-bench-hard , математике MATH и обрабатывает длинные логи с более высокой точностью наш внутренний бенчмарк . Athene-V2-Agent-72B: балансируя между возможностями чата и агента, эта модель предлагает лаконичные, директивные ответы в чате, превосходя GPT-4o в наших последних бенчмарках Nexus-V2 по вызову функций, ориентированных на сложные случаи использования функций на уровне предприятия.

AI Product | Igor Akimov

И снова про конкуренцию. OpenAI пора новую модель выпускать, конкуренты догоняют. NexusFlow зафайнтюнили Qwen-2.5 и поднялись практически по всем метрикам в модели на 72B параметров. Выложили 2 модельки: Athene-V2-Chat-72B: уровня GPT-4o. Она превосходит GPT-4o в полезности чата Arena-Hard , в кодировании заняв второе место в bigcode-bench-hard , математике MATH и обрабатывает длинные логи с более высокой точностью наш внутренний бенчмарк . Athene-V2-Agent-72B: балансируя между возможностями чата и агента, эта модель предлагает лаконичные, директивные ответы в чате, превосходя GPT-4o в наших последних бенчмарках Nexus-V2 по вызову функций, ориентированных на сложные случаи использования функций на уровне предприятия.

Технологии539 дней назад

Ещё один прорыв года в первой десятке рейтинга оценки лидеров LLM от LMSYS Теперь и новая модель Gemini-Exp-1114 от Google смогла сразу же сместить все модели OpenAI и встать на первую строчку чатбот арены. Напомню, аналогичное продвижение до высшей позиции в рейтинге было осуществлено третьим Клодом Opus от Anthropic в марте этого года. Но тогда модель постепенно двигалась вверх и продержалась на первом месте меньше месяца. По информации от Гугла и согласно бенчмаркам, новая LLM особенно хорошо справляется с техническими и творческими задачами. Gemini-Exp-1114 должна быть полезна для рассуждений и управления агентами. Ещё новая модель способна эффективно решать сложные задачи по математике, умеет в «творческое письмо» и визуализацию. Очень интересно сколько времени Gemini-Exp-1114 продержится на первом месте и чем ответит OpenAI? Продолжаем наблюдать Методы оценки: Arena Score — рейтинг на основе более 2,23 млн анонимных голосов Chatbot Arena эталонная платформа для больших языковых моделей ; MT-Bench score — оценка с помощью судейства LLM; MMLU — тест для измерения точности понимания языка при многозадачности текстовой модели, включает 57 задач.

Нейроскептик

Ещё один прорыв года в первой десятке рейтинга оценки лидеров LLM от LMSYS Теперь и новая модель Gemini-Exp-1114 от Google смогла сразу же сместить все модели OpenAI и встать на первую строчку чатбот арены. Напомню, аналогичное продвижение до высшей позиции в рейтинге было осуществлено третьим Клодом Opus от Anthropic в марте этого года. Но тогда модель постепенно двигалась вверх и продержалась на первом месте меньше месяца. По информации от Гугла и согласно бенчмаркам, новая LLM особенно хорошо справляется с техническими и творческими задачами. Gemini-Exp-1114 должна быть полезна для рассуждений и управления агентами. Ещё новая модель способна эффективно решать сложные задачи по математике, умеет в «творческое письмо» и визуализацию. Очень интересно сколько времени Gemini-Exp-1114 продержится на первом месте и чем ответит OpenAI? Продолжаем наблюдать Методы оценки: Arena Score — рейтинг на основе более 2,23 млн анонимных голосов Chatbot Arena эталонная платформа для больших языковых моделей ; MT-Bench score — оценка с помощью судейства LLM; MMLU — тест для измерения точности понимания языка при многозадачности текстовой модели, включает 57 задач.

Технологии534 дня назад