26 декабря, 16:02
DeepSeek анонсирует языковую модель V3 с 685 миллиардами параметров

Чёрный Треугольник
DeepSeek-V3: Китайская языковая модель обошла Claude 3.5 Sonnet в программировании. Компания DeepSeek, с поддержкой китайского хедж-фонда High-Flyer, анонсировала свою новую языковую модель DeepSeek-V3, обладающую впечатляющими 685 миллиардами параметров. Эта модель заметно повысила качество контекстного понимания и генерации ответов, продемонстрировав 48.4% успешных решений на тесте Aider Polyglot и заняв второе место. Модель уступила только o1-2024-12-17 61.7% , но превзошла такие известные модели как Claude-3-5-sonnet-20241022 45.3% и Gemini-exp-1206 38.2% . Тест включает 225 сложнейших задач с платформы Exercism по программированию на C++, Go, Java, JavaScript, Python и Rust. Особенно выделяется её способность к форматированию кода — 98.7% правильных решений, а также мультимодальные возможности, позволяющие работать с диаграммами и изображениями. Модель можно попробовать на сайте chat.deepseek.com ================ News Software Hardware
Технологии122 дня назад

GPT/ChatGPT/AI Central Александра Горного
DeepSeek выпустил модель V3 Новинка имеет 685 миллиардов параметров и, по первым отзывам, хорошо справляется с написанием кода. Попробовать V3 уже можно в чате Код:
Технологии122 дня назад

ITsec NEWS
DeepSeek-V3 вышла в топ языковых моделей по редактированию кода Китайская компания DeepSeek, финансируемая хедж-фондом High-Flyer, представила новую языковую модель DeepSeek-V3 с 685 миллиардами параметров. В основе архитектуры лежит подход Mixture of Experts MoE с 256 экспертами , из которых восемь активируются при обработке каждого токена. По сравнению с предыдущей версией, модель способна работать с большим объёмом данных, обладает расширенным словарным запасом и обновлённой архитектурой. DeepSeek-V3 продемонстрировала результаты в тестировании Aider Polyglot Benchmark, где оцениваются возможности моделей в решении 225 сложных задач на языках C++, Go, Java, JavaScript, Python и Rust. В ходе тестирования модель справилась с 48,4% задач, заняв второе место в рейтинге. Она уступила модели o1-2024-12-17 с результатом 61,7%, но обошла Claude-3-5-sonnet-20241022 45,3% и Gemini-exp-1206 38,2% . Модель также достигла 98,7% успешного форматирования изменений в коде. Эти результаты опубликованы в рейтинге Aider LLM Leaderboards. Кроме работы с кодом, DeepSeek-V3 продемонстрировала мультимодальные возможности, включая анализ диаграмм, обработку научных текстов, понимание изображений и создание текстов. Модель доступна для тестирования на сайте chat.deepseek.com . Отдельной особенностью является различие в самоидентификации модели. На английском языке она представляется как «искусственный интеллект, разработанный исключительно компанией DeepSeek», а в русскоязычной версии указывает, что основана на архитектуре GPT-4. ITsec NEWS
Технологии122 дня назад


CDO2Day
Китайская компания DeepSeek представила языковую модель для работы с кодом Новая языковая модель DeepSeek-V3 по сравнению с предшественником DeepSeek-V2.5 может обрабатывать больше информации за один раз, имеет заметно расширенный словарный запас и значительно более мощную внутреннюю архитектуру. В тесте Aider Polyglot модель показала результат в 48.4% успешно решенных задач для работы с кодом, заняв второе место в общем рейтинге. Модель уступила o1-2024-12-17 61.7% , но превзошла Claude 3.5 Sonnet 45.3% и Gemini-exp-1206 38.2% . Также DeepSeek-V3 умеет хорошо читать диаграммы, работать с научными текстами и сайтами, понимать картинки и помогать создавать разные тексты.
Технологии122 дня назад

NeuroADEPT
Китайцы подняли планку для опенсорс LLM. Встречаем DeepSeek V3 – нового лидера в мире open-source языковых моделей с 671B параметров. Правда, активных из них всего 37B благодаря архитектуре MoE модель разделена на экспертов, что снижает нагрузку . Работает на уровне Claude Sonnet 3.5 и GPT-4o устаревшей версии . Особенно сильна в математике и программировании – на Aider Polyglot модель заняла 2 место из 225 задач Exercism. Также DeepSeek V3 уверенно обходит Llama 405B, но пока уступает Claude в задачах для агентов. Китайцы сэкономили на обучении – 2.78 млн H800 часов и $5.3 млн, но результат впечатляет. Важно, что модель постоянно совершенствуется, и у неё есть большой потенциал. Попробовать можно бесплатно, понимает русский язык
Технологии121 день назад


DigitalBusiness.kz
Китайский стартап представил сверхмощную модель ИИ с открытым кодом Китайский стартап представил сверхмощную модель ИИ DeepSeek-V3 с 671 млрд параметров. Новая модель ИИ уже доступна через платформу Hugging Face. Используя архитектуру ряда экспертов, модель активирует только 37 миллиардов параметров для выполнения специфических задач, что позволяет достигать высокой точности при низких вычислительных затратах. DeepSeek-V3 уже превосходит открытые аналоги, такие как Llama 3.1-405B, и по мощности приближается к решениям от Anthropic и OpenAI. Разработка модели обошлась стартапу в $5,57 млн, что в несколько раз дешевле конкурентов.
Технологии121 день назад



RevВолны
DeepSeek-V3: Китайская языковая модель обошла Claude 3.5 Sonnet в программировании. Компания DeepSeek, с поддержкой китайского хедж-фонда High-Flyer, анонсировала свою новую языковую модель DeepSeek-V3, обладающую впечатляющими 685 миллиардами параметров. Эта модель заметно повысила качество контекстного понимания и генерации ответов, продемонстрировав 48.4% успешных решений на тесте Aider Polyglot и заняв второе место. Модель уступила только o1-2024-12-17 61.7% , но превзошла такие известные модели как Claude-3-5-sonnet-20241022 45.3% и Gemini-exp-1206 38.2% . Тест включает 225 сложнейших задач с платформы Exercism по программированию на C++, Go, Java, JavaScript, Python и Rust. Особенно выделяется её способность к форматированию кода — 98.7% правильных решений, а также мультимодальные возможности, позволяющие работать с диаграммами и изображениями. Модель можно попробовать на сайте chat.deepseek.com ================ News Software Hardware
Технологии122 дня назад

Блокчейн Энциклопедия
DeepSeek представили новую открытую модель V3: еще один шаг к открытому AGI DeepSeek только что представила третье поколение своей языковой модели, и это действительно впечатляет: 1. Производительность на максимум: - В 3 раза быстрее предшественника: теперь 60 токенов в секунду - Гигантская модель: 671B параметров с передовой архитектурой MoE - Обучена на 14.8T токенов высококачественных данных 2. Доступность для всех - Полностью открытый исходный код модели и исследований - Привлекательные цены: от $0.27 за миллион входящих токенов - Сохранение совместимости API для простой интеграции - Возглавляет рейтинг BigCode Bench-Hard - Опережает Claude 3.5 Sonnet на бенчмарке Aider. Философия компании заслуживает отдельного внимания: они верят в открытый путь к AGI. Об этом мы писали здесь.
Технологии122 дня назад


Сиолошная
Подарок от китайцев западному миру на Рождество: DeepSeek опубликовали третье поколение своих LLM, так ещё и полноценный технический отчёт ссылка на PDF . Деталей в нём много, вот очень краткое саммари: — модель гигантская, больше 650 миллиардов параметров, однако как и в прошлый раз применяется подход MoE, микстура экспертов. Поэтому каждое слово при генерации проходит примерно через 37 миллиардов параметров. — они предлагают оптимальный способ применения моделей, для чего нужно... больше 340 GPU но это оптимальное, можно сильно меньше — модель тренировали относительно мало, так как обучение очень эффективно. На финальный запуск потратили менее $6M на 2048 GPU. При этом модель видела почти 15 триллионов токенов как LLAMA3 . Большая часть вычислений происходила в FP8 E4M3; так как GPU быстрее считают — модель училась предсказывать сразу несколько следующих слов. Помимо улучшения качества это позволяет из коробки получить спекулятивное декодирование, то есть а удешевить б ускорить использование. У DeepSeek цены вообще копеечные по сравнению с другими провайдерами. — данные для дообучения получались путём... генерации цепочек рассуждений моделью R1 это их аналог o1 . Это для математики, программирования и смежных областей, написание эссе и более традиционные нетехничекие задачи делали как обычно — в конце статьи авторы даже дают рекомендации на будущее производителям чипов, что и как бы им хотелось видеть Ссылку на веса давать не буду а зачем, у вас что, есть 2x8H100? , но поиграться можно бесплатно на сайте тут. Ну а метрики — вот:
Технологии122 дня назад


Хайтек+
В Китае разработали одну из самых мощных ИИ-моделей с открытым кодом Китайский стартап DeepSeek представил новую сверхбольшую модель искусственного интеллекта DeepSeek-V3 с 671 млрд параметров, доступную через Hugging Face. Используя архитектуру смеси экспертов, модель активирует только 37 млрд параметров для обработки конкретных задач, обеспечивая высокую точность и эффективность. DeepSeek-V3 превосходит открытые модели, такие как Llama 3.1-405B, и приближается к закрытым решениям Anthropic и OpenAI. Обучение DeepSeek-V3 обошлось в $5,57 млн — в десятки раз дешевле, чем у конкурентов. Код модели доступен на GitHub под лицензией MIT.
Технологии121 день назад

Похожие новости



+5











+8

Baidu представляет новые мультимодальные модели AI на фоне критики конкурентов
Технологии
7 часов назад




ChatGPT создает новый язык для описания будущего человечества
Технологии
1 день назад

Обнаружена уязвимость в нейросетях: метод взлома через системные файлы
Происшествия
1 день назад


Студент разработал ИИ для помощи на переговорах и собрал $5,3 млн инвестиций
Происшествия
1 день назад

Perplexity анонсирует запуск гиперперсонализированного браузера Comet в мае
Технологии
1 день назад




Intel изменяет планы по выпуску процессоров Nova Lake и Panther Lake
Технологии
1 день назад


