26 декабря, 16:02

DeepSeek анонсирует языковую модель V3 с 685 миллиардами параметров

#High-Flyer #High-Flyer #DeepSeek #Китай #DeepSeek

DeepSeek-V3: Китайская языковая модель обошла Claude 3.5 Sonnet в программировании. Компания DeepSeek, с поддержкой китайского хедж-фонда High-Flyer, анонсировала свою новую языковую модель DeepSeek-V3, обладающую впечатляющими 685 миллиардами параметров. Эта модель заметно повысила качество контекстного понимания и генерации ответов, продемонстрировав 48.4% успешных решений на тесте Aider Polyglot и заняв второе место. Модель уступила только o1-2024-12-17 61.7% , но превзошла такие известные модели как Claude-3-5-sonnet-20241022 45.3% и Gemini-exp-1206 38.2% . Тест включает 225 сложнейших задач с платформы Exercism по программированию на C++, Go, Java, JavaScript, Python и Rust. Особенно выделяется её способность к форматированию кода — 98.7% правильных решений, а также мультимодальные возможности, позволяющие работать с диаграммами и изображениями. Модель можно попробовать на сайте chat.deepseek.com ================ News Software Hardware

Технологии231 день назад

GPT/ChatGPT/AI Central Александра Горного

DeepSeek выпустил модель V3 Новинка имеет 685 миллиардов параметров и, по первым отзывам, хорошо справляется с написанием кода. Попробовать V3 уже можно в чате Код:

Технологии231 день назад

Блокчейн Энциклопедия

DeepSeek представили новую открытую модель V3: еще один шаг к открытому AGI DeepSeek только что представила третье поколение своей языковой модели, и это действительно впечатляет: 1. Производительность на максимум: - В 3 раза быстрее предшественника: теперь 60 токенов в секунду - Гигантская модель: 671B параметров с передовой архитектурой MoE - Обучена на 14.8T токенов высококачественных данных 2. Доступность для всех - Полностью открытый исходный код модели и исследований - Привлекательные цены: от $0.27 за миллион входящих токенов - Сохранение совместимости API для простой интеграции - Возглавляет рейтинг BigCode Bench-Hard - Опережает Claude 3.5 Sonnet на бенчмарке Aider. Философия компании заслуживает отдельного внимания: они верят в открытый путь к AGI. Об этом мы писали здесь.

Технологии231 день назад

Подарок от китайцев западному миру на Рождество: DeepSeek опубликовали третье поколение своих LLM, так ещё и полноценный технический отчёт ссылка на PDF . Деталей в нём много, вот очень краткое саммари: — модель гигантская, больше 650 миллиардов параметров, однако как и в прошлый раз применяется подход MoE, микстура экспертов. Поэтому каждое слово при генерации проходит примерно через 37 миллиардов параметров. — они предлагают оптимальный способ применения моделей, для чего нужно... больше 340 GPU ‍ но это оптимальное, можно сильно меньше — модель тренировали относительно мало, так как обучение очень эффективно. На финальный запуск потратили менее $6M на 2048 GPU. При этом модель видела почти 15 триллионов токенов как LLAMA3 . Большая часть вычислений происходила в FP8 E4M3; так как GPU быстрее считают — модель училась предсказывать сразу несколько следующих слов. Помимо улучшения качества это позволяет из коробки получить спекулятивное декодирование, то есть а удешевить б ускорить использование. У DeepSeek цены вообще копеечные по сравнению с другими провайдерами. — данные для дообучения получались путём... генерации цепочек рассуждений моделью R1 это их аналог o1 . Это для математики, программирования и смежных областей, написание эссе и более традиционные нетехничекие задачи делали как обычно — в конце статьи авторы даже дают рекомендации на будущее производителям чипов, что и как бы им хотелось видеть Ссылку на веса давать не буду а зачем, у вас что, есть 2x8H100? , но поиграться можно бесплатно на сайте тут. Ну а метрики — вот:

Сиолошная

Подарок от китайцев западному миру на Рождество: DeepSeek опубликовали третье поколение своих LLM, так ещё и полноценный технический отчёт ссылка на PDF . Деталей в нём много, вот очень краткое саммари: — модель гигантская, больше 650 миллиардов параметров, однако как и в прошлый раз применяется подход MoE, микстура экспертов. Поэтому каждое слово при генерации проходит примерно через 37 миллиардов параметров. — они предлагают оптимальный способ применения моделей, для чего нужно... больше 340 GPU ‍ но это оптимальное, можно сильно меньше — модель тренировали относительно мало, так как обучение очень эффективно. На финальный запуск потратили менее $6M на 2048 GPU. При этом модель видела почти 15 триллионов токенов как LLAMA3 . Большая часть вычислений происходила в FP8 E4M3; так как GPU быстрее считают — модель училась предсказывать сразу несколько следующих слов. Помимо улучшения качества это позволяет из коробки получить спекулятивное декодирование, то есть а удешевить б ускорить использование. У DeepSeek цены вообще копеечные по сравнению с другими провайдерами. — данные для дообучения получались путём... генерации цепочек рассуждений моделью R1 это их аналог o1 . Это для математики, программирования и смежных областей, написание эссе и более традиционные нетехничекие задачи делали как обычно — в конце статьи авторы даже дают рекомендации на будущее производителям чипов, что и как бы им хотелось видеть Ссылку на веса давать не буду а зачем, у вас что, есть 2x8H100? , но поиграться можно бесплатно на сайте тут. Ну а метрики — вот:

Технологии231 день назад

В Китае разработали одну из самых мощных ИИ-моделей с открытым кодом Китайский стартап DeepSeek представил новую сверхбольшую модель искусственного интеллекта DeepSeek-V3 с 671 млрд параметров, доступную через Hugging Face. Используя архитектуру смеси экспертов, модель активирует только 37 млрд параметров для обработки конкретных задач, обеспечивая высокую точность и эффективность. DeepSeek-V3 превосходит открытые модели, такие как Llama 3.1-405B, и приближается к закрытым решениям Anthropic и OpenAI. Обучение DeepSeek-V3 обошлось в $5,57 млн — в десятки раз дешевле, чем у конкурентов. Код модели доступен на GitHub под лицензией MIT.

Хайтек+

В Китае разработали одну из самых мощных ИИ-моделей с открытым кодом Китайский стартап DeepSeek представил новую сверхбольшую модель искусственного интеллекта DeepSeek-V3 с 671 млрд параметров, доступную через Hugging Face. Используя архитектуру смеси экспертов, модель активирует только 37 млрд параметров для обработки конкретных задач, обеспечивая высокую точность и эффективность. DeepSeek-V3 превосходит открытые модели, такие как Llama 3.1-405B, и приближается к закрытым решениям Anthropic и OpenAI. Обучение DeepSeek-V3 обошлось в $5,57 млн — в десятки раз дешевле, чем у конкурентов. Код модели доступен на GitHub под лицензией MIT.

Технологии230 дней назад

RevВолны

Технологии231 день назад

ITsec NEWS

DeepSeek-V3 вышла в топ языковых моделей по редактированию кода Китайская компания DeepSeek, финансируемая хедж-фондом High-Flyer, представила новую языковую модель DeepSeek-V3 с 685 миллиардами параметров. В основе архитектуры лежит подход Mixture of Experts MoE с 256 экспертами , из которых восемь активируются при обработке каждого токена. По сравнению с предыдущей версией, модель способна работать с большим объёмом данных, обладает расширенным словарным запасом и обновлённой архитектурой. DeepSeek-V3 продемонстрировала результаты в тестировании Aider Polyglot Benchmark, где оцениваются возможности моделей в решении 225 сложных задач на языках C++, Go, Java, JavaScript, Python и Rust. В ходе тестирования модель справилась с 48,4% задач, заняв второе место в рейтинге. Она уступила модели o1-2024-12-17 с результатом 61,7%, но обошла Claude-3-5-sonnet-20241022 45,3% и Gemini-exp-1206 38,2% . Модель также достигла 98,7% успешного форматирования изменений в коде. Эти результаты опубликованы в рейтинге Aider LLM Leaderboards. Кроме работы с кодом, DeepSeek-V3 продемонстрировала мультимодальные возможности, включая анализ диаграмм, обработку научных текстов, понимание изображений и создание текстов. Модель доступна для тестирования на сайте chat.deepseek.com . Отдельной особенностью является различие в самоидентификации модели. На английском языке она представляется как «искусственный интеллект, разработанный исключительно компанией DeepSeek», а в русскоязычной версии указывает, что основана на архитектуре GPT-4. ITsec NEWS

Технологии231 день назад

Китайская компания DeepSeek представила языковую модель для работы с кодом Новая языковая модель DeepSeek-V3 по сравнению с предшественником DeepSeek-V2.5 может обрабатывать больше информации за один раз, имеет заметно расширенный словарный запас и значительно более мощную внутреннюю архитектуру. В тесте Aider Polyglot модель показала результат в 48.4% успешно решенных задач для работы с кодом, заняв второе место в общем рейтинге. Модель уступила o1-2024-12-17 61.7% , но превзошла Claude 3.5 Sonnet 45.3% и Gemini-exp-1206 38.2% . Также DeepSeek-V3 умеет хорошо читать диаграммы, работать с научными текстами и сайтами, понимать картинки и помогать создавать разные тексты.

CDO2Day

Китайская компания DeepSeek представила языковую модель для работы с кодом Новая языковая модель DeepSeek-V3 по сравнению с предшественником DeepSeek-V2.5 может обрабатывать больше информации за один раз, имеет заметно расширенный словарный запас и значительно более мощную внутреннюю архитектуру. В тесте Aider Polyglot модель показала результат в 48.4% успешно решенных задач для работы с кодом, заняв второе место в общем рейтинге. Модель уступила o1-2024-12-17 61.7% , но превзошла Claude 3.5 Sonnet 45.3% и Gemini-exp-1206 38.2% . Также DeepSeek-V3 умеет хорошо читать диаграммы, работать с научными текстами и сайтами, понимать картинки и помогать создавать разные тексты.

Технологии231 день назад

Video is not supported

NeuroADEPT

Китайцы подняли планку для опенсорс LLM. Встречаем DeepSeek V3 – нового лидера в мире open-source языковых моделей с 671B параметров. Правда, активных из них всего 37B благодаря архитектуре MoE модель разделена на экспертов, что снижает нагрузку . Работает на уровне Claude Sonnet 3.5 и GPT-4o устаревшей версии . Особенно сильна в математике и программировании – на Aider Polyglot модель заняла 2 место из 225 задач Exercism. Также DeepSeek V3 уверенно обходит Llama 405B, но пока уступает Claude в задачах для агентов. Китайцы сэкономили на обучении – 2.78 млн H800 часов и $5.3 млн, но результат впечатляет. Важно, что модель постоянно совершенствуется, и у неё есть большой потенциал. Попробовать можно бесплатно, понимает русский язык

Технологии230 дней назад

Китайский стартап представил сверхмощную модель ИИ с открытым кодом Китайский стартап представил сверхмощную модель ИИ DeepSeek-V3 с 671 млрд параметров. Новая модель ИИ уже доступна через платформу Hugging Face. Используя архитектуру ряда экспертов, модель активирует только 37 миллиардов параметров для выполнения специфических задач, что позволяет достигать высокой точности при низких вычислительных затратах. DeepSeek-V3 уже превосходит открытые аналоги, такие как Llama 3.1-405B, и по мощности приближается к решениям от Anthropic и OpenAI. Разработка модели обошлась стартапу в $5,57 млн, что в несколько раз дешевле конкурентов.

DigitalBusiness.kz

Китайский стартап представил сверхмощную модель ИИ с открытым кодом Китайский стартап представил сверхмощную модель ИИ DeepSeek-V3 с 671 млрд параметров. Новая модель ИИ уже доступна через платформу Hugging Face. Используя архитектуру ряда экспертов, модель активирует только 37 миллиардов параметров для выполнения специфических задач, что позволяет достигать высокой точности при низких вычислительных затратах. DeepSeek-V3 уже превосходит открытые аналоги, такие как Llama 3.1-405B, и по мощности приближается к решениям от Anthropic и OpenAI. Разработка модели обошлась стартапу в $5,57 млн, что в несколько раз дешевле конкурентов.

Технологии230 дней назад

Похожие новости

В России представили систему цифрового бесшовного неба с интеграцией дронов и спутников

Технологии

1 день назад

Авито запускает R&D отдел для исследований в области искусственного интеллекта с инвестициями более 1 млрд рублей

Технологии

1 день назад

+23

DeepSeek анонсирует языковую модель V3 с 685 миллиардами параметров

DeepSeek откладывает выпуск ИИ-модели из-за проблем с чипами Huawei

Китай и США: конкуренция за лидерство в сфере ИИ

Расходы на российское ПО за пять лет увеличились более чем в 3,5 раза

Google и Cisco возвращают очные собеседования для борьбы с ИИ-мошенничеством

В России представили систему цифрового бесшовного неба с интеграцией дронов и спутников

Авито запускает R&D отдел для исследований в области искусственного интеллекта с инвестициями более 1 млрд рублей