26 декабря, 16:02

DeepSeek анонсирует языковую модель V3 с 685 миллиардами параметров

Чёрный Треугольник
Чёрный Треугольник
DeepSeek-V3: Китайская языковая модель обошла Claude 3.5 Sonnet в программировании. Компания DeepSeek, с поддержкой китайского хедж-фонда High-Flyer, анонсировала свою новую языковую модель DeepSeek-V3, обладающую впечатляющими 685 миллиардами параметров. Эта модель заметно повысила качество контекстного понимания и генерации ответов, продемонстрировав 48.4% успешных решений на тесте Aider Polyglot и заняв второе место. Модель уступила только o1-2024-12-17 61.7% , но превзошла такие известные модели как Claude-3-5-sonnet-20241022 45.3% и Gemini-exp-1206 38.2% . Тест включает 225 сложнейших задач с платформы Exercism по программированию на C++, Go, Java, JavaScript, Python и Rust. Особенно выделяется её способность к форматированию кода — 98.7% правильных решений, а также мультимодальные возможности, позволяющие работать с диаграммами и изображениями. Модель можно попробовать на сайте chat.deepseek.com ================ News Software Hardware
GPT/ChatGPT/AI Central Александра Горного
GPT/ChatGPT/AI Central Александра Горного
DeepSeek выпустил модель V3 Новинка имеет 685 миллиардов параметров и, по первым отзывам, хорошо справляется с написанием кода. Попробовать V3 уже можно в чате Код:
ITsec NEWS
ITsec NEWS
​ DeepSeek-V3 вышла в топ языковых моделей по редактированию кода Китайская компания DeepSeek, финансируемая хедж-фондом High-Flyer, представила новую языковую модель DeepSeek-V3 с 685 миллиардами параметров. В основе архитектуры лежит подход Mixture of Experts MoE с 256 экспертами , из которых восемь активируются при обработке каждого токена. По сравнению с предыдущей версией, модель способна работать с большим объёмом данных, обладает расширенным словарным запасом и обновлённой архитектурой. DeepSeek-V3 продемонстрировала результаты в тестировании Aider Polyglot Benchmark, где оцениваются возможности моделей в решении 225 сложных задач на языках C++, Go, Java, JavaScript, Python и Rust. В ходе тестирования модель справилась с 48,4% задач, заняв второе место в рейтинге. Она уступила модели o1-2024-12-17 с результатом 61,7%, но обошла Claude-3-5-sonnet-20241022 45,3% и Gemini-exp-1206 38,2% . Модель также достигла 98,7% успешного форматирования изменений в коде. Эти результаты опубликованы в рейтинге Aider LLM Leaderboards. Кроме работы с кодом, DeepSeek-V3 продемонстрировала мультимодальные возможности, включая анализ диаграмм, обработку научных текстов, понимание изображений и создание текстов. Модель доступна для тестирования на сайте chat.deepseek.com . Отдельной особенностью является различие в самоидентификации модели. На английском языке она представляется как «искусственный интеллект, разработанный исключительно компанией DeepSeek», а в русскоязычной версии указывает, что основана на архитектуре GPT-4. ITsec NEWS
Китайская компания DeepSeek представила языковую модель для работы с кодом    Новая языковая модель DeepSeek-V3 по сравнению с предшественником DeepSeek-V2.5 может обрабатывать больше информации за один раз, имеет заметно расширенный словарный запас и значительно более мощную внутреннюю архитектуру.    В тесте Aider Polyglot модель показала результат в 48.4% успешно решенных задач для работы с кодом, заняв второе место в общем рейтинге. Модель уступила o1-2024-12-17  61.7% , но превзошла Claude 3.5 Sonnet  45.3%  и Gemini-exp-1206  38.2% .    Также DeepSeek-V3 умеет хорошо читать диаграммы, работать с научными текстами и сайтами, понимать картинки и помогать создавать разные тексты.
CDO2Day
CDO2Day
Китайская компания DeepSeek представила языковую модель для работы с кодом Новая языковая модель DeepSeek-V3 по сравнению с предшественником DeepSeek-V2.5 может обрабатывать больше информации за один раз, имеет заметно расширенный словарный запас и значительно более мощную внутреннюю архитектуру. В тесте Aider Polyglot модель показала результат в 48.4% успешно решенных задач для работы с кодом, заняв второе место в общем рейтинге. Модель уступила o1-2024-12-17 61.7% , но превзошла Claude 3.5 Sonnet 45.3% и Gemini-exp-1206 38.2% . Также DeepSeek-V3 умеет хорошо читать диаграммы, работать с научными текстами и сайтами, понимать картинки и помогать создавать разные тексты.
Video is not supported
NeuroADEPT
NeuroADEPT
Китайцы подняли планку для опенсорс LLM. Встречаем DeepSeek V3 – нового лидера в мире open-source языковых моделей с 671B параметров. Правда, активных из них всего 37B благодаря архитектуре MoE модель разделена на экспертов, что снижает нагрузку . Работает на уровне Claude Sonnet 3.5 и GPT-4o устаревшей версии . Особенно сильна в математике и программировании – на Aider Polyglot модель заняла 2 место из 225 задач Exercism. Также DeepSeek V3 уверенно обходит Llama 405B, но пока уступает Claude в задачах для агентов. Китайцы сэкономили на обучении – 2.78 млн H800 часов и $5.3 млн, но результат впечатляет. Важно, что модель постоянно совершенствуется, и у неё есть большой потенциал. Попробовать можно бесплатно, понимает русский язык
Китайский стартап представил сверхмощную модель ИИ с открытым кодом  Китайский стартап представил сверхмощную модель ИИ DeepSeek-V3 с 671 млрд параметров.  Новая модель ИИ  уже доступна через платформу Hugging Face. Используя архитектуру ряда экспертов, модель активирует только 37 миллиардов параметров для выполнения специфических задач, что позволяет достигать высокой точности при низких вычислительных затратах.  DeepSeek-V3 уже превосходит открытые аналоги, такие как Llama 3.1-405B, и по мощности приближается к решениям от Anthropic и OpenAI.  Разработка модели обошлась стартапу в $5,57 млн, что в несколько раз дешевле конкурентов.
DigitalBusiness.kz
DigitalBusiness.kz
Китайский стартап представил сверхмощную модель ИИ с открытым кодом Китайский стартап представил сверхмощную модель ИИ DeepSeek-V3 с 671 млрд параметров. Новая модель ИИ уже доступна через платформу Hugging Face. Используя архитектуру ряда экспертов, модель активирует только 37 миллиардов параметров для выполнения специфических задач, что позволяет достигать высокой точности при низких вычислительных затратах. DeepSeek-V3 уже превосходит открытые аналоги, такие как Llama 3.1-405B, и по мощности приближается к решениям от Anthropic и OpenAI. Разработка модели обошлась стартапу в $5,57 млн, что в несколько раз дешевле конкурентов.
Loading indicator gif
Твой личный ИИ — отвечает, объясняет, помогает
1chatgpt.ru
1chatgpt.ru
Твой личный ИИ — отвечает, объясняет, помогает
RevВолны
RevВолны
DeepSeek-V3: Китайская языковая модель обошла Claude 3.5 Sonnet в программировании. Компания DeepSeek, с поддержкой китайского хедж-фонда High-Flyer, анонсировала свою новую языковую модель DeepSeek-V3, обладающую впечатляющими 685 миллиардами параметров. Эта модель заметно повысила качество контекстного понимания и генерации ответов, продемонстрировав 48.4% успешных решений на тесте Aider Polyglot и заняв второе место. Модель уступила только o1-2024-12-17 61.7% , но превзошла такие известные модели как Claude-3-5-sonnet-20241022 45.3% и Gemini-exp-1206 38.2% . Тест включает 225 сложнейших задач с платформы Exercism по программированию на C++, Go, Java, JavaScript, Python и Rust. Особенно выделяется её способность к форматированию кода — 98.7% правильных решений, а также мультимодальные возможности, позволяющие работать с диаграммами и изображениями. Модель можно попробовать на сайте chat.deepseek.com ================ News Software Hardware
Блокчейн Энциклопедия
Блокчейн Энциклопедия
DeepSeek представили новую открытую модель V3: еще один шаг к открытому AGI DeepSeek только что представила третье поколение своей языковой модели, и это действительно впечатляет: 1. Производительность на максимум: - В 3 раза быстрее предшественника: теперь 60 токенов в секунду - Гигантская модель: 671B параметров с передовой архитектурой MoE - Обучена на 14.8T токенов высококачественных данных 2. Доступность для всех - Полностью открытый исходный код модели и исследований - Привлекательные цены: от $0.27 за миллион входящих токенов - Сохранение совместимости API для простой интеграции - Возглавляет рейтинг BigCode Bench-Hard - Опережает Claude 3.5 Sonnet на бенчмарке Aider. Философия компании заслуживает отдельного внимания: они верят в открытый путь к AGI. Об этом мы писали здесь.
Подарок от китайцев западному миру на Рождество: DeepSeek опубликовали третье поколение своих LLM, так ещё и полноценный технический отчёт  ссылка на PDF . Деталей в нём много, вот очень краткое саммари:  — модель гигантская, больше 650 миллиардов параметров, однако как и в прошлый раз применяется подход MoE, микстура экспертов. Поэтому каждое слово при генерации проходит примерно через 37 миллиардов параметров.  — они предлагают оптимальный способ применения моделей, для чего нужно... больше 340 GPU  ‍  но это оптимальное, можно сильно меньше  — модель тренировали относительно мало, так как обучение очень эффективно. На финальный запуск потратили менее $6M на 2048 GPU. При этом модель видела почти 15 триллионов токенов  как LLAMA3 . Большая часть вычислений происходила в FP8  E4M3; так как GPU быстрее считают  — модель училась предсказывать сразу несколько следующих слов. Помимо улучшения качества это позволяет из коробки получить спекулятивное декодирование, то есть а  удешевить б  ускорить использование. У DeepSeek цены вообще копеечные по сравнению с другими провайдерами. — данные для дообучения получались путём... генерации цепочек рассуждений моделью R1  это их аналог o1 . Это для математики, программирования и смежных областей, написание эссе и более традиционные нетехничекие задачи делали как обычно — в конце статьи авторы даже дают рекомендации на будущее производителям чипов, что и как бы им хотелось видеть  Ссылку на веса давать не буду  а зачем, у вас что, есть 2x8H100? , но поиграться можно бесплатно на сайте тут.  Ну а метрики — вот:
Сиолошная
Сиолошная
Подарок от китайцев западному миру на Рождество: DeepSeek опубликовали третье поколение своих LLM, так ещё и полноценный технический отчёт ссылка на PDF . Деталей в нём много, вот очень краткое саммари: — модель гигантская, больше 650 миллиардов параметров, однако как и в прошлый раз применяется подход MoE, микстура экспертов. Поэтому каждое слово при генерации проходит примерно через 37 миллиардов параметров. — они предлагают оптимальный способ применения моделей, для чего нужно... больше 340 GPU ‍ но это оптимальное, можно сильно меньше — модель тренировали относительно мало, так как обучение очень эффективно. На финальный запуск потратили менее $6M на 2048 GPU. При этом модель видела почти 15 триллионов токенов как LLAMA3 . Большая часть вычислений происходила в FP8 E4M3; так как GPU быстрее считают — модель училась предсказывать сразу несколько следующих слов. Помимо улучшения качества это позволяет из коробки получить спекулятивное декодирование, то есть а удешевить б ускорить использование. У DeepSeek цены вообще копеечные по сравнению с другими провайдерами. — данные для дообучения получались путём... генерации цепочек рассуждений моделью R1 это их аналог o1 . Это для математики, программирования и смежных областей, написание эссе и более традиционные нетехничекие задачи делали как обычно — в конце статьи авторы даже дают рекомендации на будущее производителям чипов, что и как бы им хотелось видеть Ссылку на веса давать не буду а зачем, у вас что, есть 2x8H100? , но поиграться можно бесплатно на сайте тут. Ну а метрики — вот:
В Китае разработали одну из самых мощных ИИ-моделей с открытым кодом  Китайский стартап DeepSeek представил новую сверхбольшую модель искусственного интеллекта DeepSeek-V3 с 671 млрд параметров, доступную через Hugging Face. Используя архитектуру смеси экспертов, модель активирует только 37 млрд параметров для обработки конкретных задач, обеспечивая высокую точность и эффективность. DeepSeek-V3 превосходит открытые модели, такие как Llama 3.1-405B, и приближается к закрытым решениям Anthropic и OpenAI. Обучение DeepSeek-V3 обошлось в $5,57 млн — в десятки раз дешевле, чем у конкурентов. Код модели доступен на GitHub под лицензией MIT.
Хайтек+
Хайтек+
В Китае разработали одну из самых мощных ИИ-моделей с открытым кодом Китайский стартап DeepSeek представил новую сверхбольшую модель искусственного интеллекта DeepSeek-V3 с 671 млрд параметров, доступную через Hugging Face. Используя архитектуру смеси экспертов, модель активирует только 37 млрд параметров для обработки конкретных задач, обеспечивая высокую точность и эффективность. DeepSeek-V3 превосходит открытые модели, такие как Llama 3.1-405B, и приближается к закрытым решениям Anthropic и OpenAI. Обучение DeepSeek-V3 обошлось в $5,57 млн — в десятки раз дешевле, чем у конкурентов. Код модели доступен на GitHub под лицензией MIT.
Loading indicator gif