29 сентября, 16:13

DeepSeek запускает новую модель V3 2 с улучшенной архитектурой и сниженной стоимостью

Новая экспериментальная модель DeepSeek V3 2 уже вышла По сути это модификация недавней V3 1 Terminus модель заново дообучили используя новый механизм разреженного внимания На практике это привело к более эффективной работе с большим контекстом и увеличению скорости при сохранении общего интеллекта На некоторых бенчмарках зависящих от рассуждений есть даже небольшие просадки однако они возникают из за меньшего использования размышляющих токенов моделью При сопоставимых ресурсах разрыв пропадает отмечают разработчики Уже работает на сайте и в приложениях

Технологии125 дней назад

DeepSeek выпустили экспериментальную модель V3 2 Exp За основу взяли архитектуру предыдущей версии V3 1 Terminus но добавили новую схему DeepSeek Sparse Attention DSA Модель фокусируется только на наиболее релевантных токенах снижая затраты памяти и ускоряя обработку длинных последовательностей Результаты на общих бенчмарках почти не изменились в сравнение с предыдущей версией на MMLU Pro 85 0 без роста или падения Но в задачах программирования заметен прирост на Codeforces модель набрала 2121 против 2046 у V3 1 Под капотом DeepSeek публикует несколько типов ядер TileLang DeepGEMM и FlashMLA Модель доступна на Hugging Face под лицензией MIT открыта для экспериментов и модификаций Революционным такой релиз точно не назовешь но так DeepSeek возможно готовит базу для следующего поколения параллельно проверяя новые технологии на практике с реальными пользователями Компания делает ставку на доступность Чем дешевле вызовы модели тем больше разработчиков начнут экспериментировать а это значит больше обратной связи больше данных для улучшения и выше шансы закрепиться в экосистеме Похоже компания тестирует не только архитектуру но и бизнес модель СверхРахум

Железный Человек

DeepSeek выпустили экспериментальную модель V3 2 Exp За основу взяли архитектуру предыдущей версии V3 1 Terminus но добавили новую схему DeepSeek Sparse Attention DSA Модель фокусируется только на наиболее релевантных токенах снижая затраты памяти и ускоряя обработку длинных последовательностей Результаты на общих бенчмарках почти не изменились в сравнение с предыдущей версией на MMLU Pro 85 0 без роста или падения Но в задачах программирования заметен прирост на Codeforces модель набрала 2121 против 2046 у V3 1 Под капотом DeepSeek публикует несколько типов ядер TileLang DeepGEMM и FlashMLA Модель доступна на Hugging Face под лицензией MIT открыта для экспериментов и модификаций Революционным такой релиз точно не назовешь но так DeepSeek возможно готовит базу для следующего поколения параллельно проверяя новые технологии на практике с реальными пользователями Компания делает ставку на доступность Чем дешевле вызовы модели тем больше разработчиков начнут экспериментировать а это значит больше обратной связи больше данных для улучшения и выше шансы закрепиться в экосистеме Похоже компания тестирует не только архитектуру но и бизнес модель СверхРахум

Технологии125 дней назад

ВЕДОМОСТИ

Китайская DeepSeek выпустила промежуточную модель ИИ на пути к следующему поколению V3 2 Exp Она эффективнее в обучении и лучше обрабатывает длинные текстовые последовательности чем предыдущие версии больших языковых моделей сообщили в компании Как отмечает Reuters архитектура DeepSeek следующего поколения вряд ли потрясет рынки но она может оказать значительное давление на внутренних конкурентов таких как Qwen от Alibaba и американскую OpenAI если ей удастся повторить успех моделей R1 и V3 Подпишитесь на Ведомости

Технологии125 дней назад

Китайский разработчик ИИ DeepSeek представил свою экспериментальную модель V3 2 Exp 29 сентября 2025 года внедрив инновационную технологию разреженного внимания которая значительно снижает вычислительные издержки при сохранении уровня производительности сопоставимого с ведущими системами искусственного интеллекта Модель V3 2 Exp дебютирует с технологией DeepSeek Sparse Attention DSA механизмом который по заявлению компании на платформе для разработчиков Hugging Face впервые обеспечивает тонкозернистое разреженное внимание Эта технология позволяет модели обрабатывать длинные текстовые последовательности до 64 раз быстрее традиционных методов при этом снижая использование памяти на 30 40 и повышая эффективность обучения примерно на 50

Раньше всех. Ну почти.

Китайский разработчик ИИ DeepSeek представил свою экспериментальную модель V3 2 Exp 29 сентября 2025 года внедрив инновационную технологию разреженного внимания которая значительно снижает вычислительные издержки при сохранении уровня производительности сопоставимого с ведущими системами искусственного интеллекта Модель V3 2 Exp дебютирует с технологией DeepSeek Sparse Attention DSA механизмом который по заявлению компании на платформе для разработчиков Hugging Face впервые обеспечивает тонкозернистое разреженное внимание Эта технология позволяет модели обрабатывать длинные текстовые последовательности до 64 раз быстрее традиционных методов при этом снижая использование памяти на 30 40 и повышая эффективность обучения примерно на 50

Технологии124 дня назад

DeepSeek выпустила новую версию своей ИИ модели Китайская технологическая компания DeepSeek объявила о выходе экспериментальной версии ИИ модели V3 2 Exp Она является продолжением и развитием архитектуры V3 1 Terminus но при этом предлагает ряд новых возможностей Так в V3 2 Exp внедрена технология DeepSeek Sparse Attention DSA которая повышает скорость обучения снижает потребление ресурсов ускоряет генерацию текста и улучшает качество ответов на основе расширенных входных данных В компании назвали DeepSeek V3 2 Exp промежуточным шагом к новому поколению архитектуры искусственного интеллекта Новая версия доступна пользователям уже сейчас через официальное мобильное приложение и веб сервис DeepSeek а также по API для интеграции в сторонние проекты Китайская Панорама

Китайская Панорама

DeepSeek выпустила новую версию своей ИИ модели Китайская технологическая компания DeepSeek объявила о выходе экспериментальной версии ИИ модели V3 2 Exp Она является продолжением и развитием архитектуры V3 1 Terminus но при этом предлагает ряд новых возможностей Так в V3 2 Exp внедрена технология DeepSeek Sparse Attention DSA которая повышает скорость обучения снижает потребление ресурсов ускоряет генерацию текста и улучшает качество ответов на основе расширенных входных данных В компании назвали DeepSeek V3 2 Exp промежуточным шагом к новому поколению архитектуры искусственного интеллекта Новая версия доступна пользователям уже сейчас через официальное мобильное приложение и веб сервис DeepSeek а также по API для интеграции в сторонние проекты Китайская Панорама

Технологии124 дня назад

DeepSeek V3 2 новая модель китайского стартапа DeepSeek выпустил новую версию своей нейросети Экспериментальная модель V3 2 это модифицированная версия недавней V3 1 Terminus с внедренным механизмом разреженного внимания Улучшенная архитектура позволяет модели эффективнее работать с длинным контекстом сохраняя уровень интеллекта В то же время в некоторых тестах чувствительных к количеству размышлений перед ответом есть небольшие просадки Разработчики отмечают что они появляются из за более кратких рассуждений модели Но если она будет тратить сопоставимое число токенов то разрыв пропадет Нововведения позволили сильно удешевить модель За 1 млн входных выходных токенов V3 2 по API просят всего 0 28 0 42 что в 2 и 4 раза ниже чем у V3 1 Terminus UPD DeepSeek V3 2 уже работает бесплатно в нашем боте 1 Перейдите в GPT4Telegrambot 2 Нажмите Выбрать модель Подпишитесь на Hi AI новости DeepSeek

Hi, AI! | Нейросети и технологии

DeepSeek V3 2 новая модель китайского стартапа DeepSeek выпустил новую версию своей нейросети Экспериментальная модель V3 2 это модифицированная версия недавней V3 1 Terminus с внедренным механизмом разреженного внимания Улучшенная архитектура позволяет модели эффективнее работать с длинным контекстом сохраняя уровень интеллекта В то же время в некоторых тестах чувствительных к количеству размышлений перед ответом есть небольшие просадки Разработчики отмечают что они появляются из за более кратких рассуждений модели Но если она будет тратить сопоставимое число токенов то разрыв пропадет Нововведения позволили сильно удешевить модель За 1 млн входных выходных токенов V3 2 по API просят всего 0 28 0 42 что в 2 и 4 раза ниже чем у V3 1 Terminus UPD DeepSeek V3 2 уже работает бесплатно в нашем боте 1 Перейдите в GPT4Telegrambot 2 Нажмите Выбрать модель Подпишитесь на Hi AI новости DeepSeek

Технологии125 дней назад

DeepSeek обновился до V3 2 Exp Новинка построена на базе ранее выпущенной V3 1 Terminus Она на 50 дешевле и немного лучше в поиске Похоже V4 мы в ближайшее время не увидим Lama AI лама news

Lama News

DeepSeek обновился до V3 2 Exp Новинка построена на базе ранее выпущенной V3 1 Terminus Она на 50 дешевле и немного лучше в поиске Похоже V4 мы в ближайшее время не увидим Lama AI лама news

Технологии125 дней назад

Все о блокчейн/мозге/space/WEB 3.0 в России и мире

Новое от DeepSeek экспериментальная модель DeepSeek V3 2 Exp это экспериментальная версия модели которая позиционируется как промежуточный шаг к следующему поколению их архитектуры Все документы тут Модель построена на базе DeepSeek V3 1 Terminus и вводит ключевую инновацию DeepSeek Sparse Attention DSA механизм разреженного внимания специально разработанный для оптимизации обучения и инференса в сценариях с длинным контекстом Цель решить узкое место современных ИИ обработка длинных текстов требует огромных вычислительных ресурсов но DSA делает это быстрее и дешевле практически не жертвуя качеством вывода Команда нашла способ до 10x снижения затрат на инференс для последовательностей 128K токенов без потери качества Этот релиз происходит в разгар ценовой войны в китайском ИИ DeepSeek конкурирует с Z ai бывший Zhipu и их GLM 4 5 снижая цены чтобы отвоевать долю

Технологии125 дней назад

СОФТ DEEPSEEK ВЫПУСТИЛА ЭКСПЕРИМЕНТАЛЬНУЮ ВЕРСИЮ ИИ МОДЕЛИ Китайская компания DeepSeek выпустила новую экспериментальную версию ИИ модели DeepSeek V3 2 Exp следует из заявления компании Согласно заявлению компании опубликованному в понедельник в официальном аккаунте в соцсети WeChat в новой версии была повышена эффективность обучения и умозаключений а также снижена стоимость API В заявлении отмечается что выпуск новой модели стал промежуточным шагом к новому поколению архитектуры ФОТО РИА Новости Владимир Астапкович аврорамедиа ии Telegram экосистема АВРОРА МЕДИА МЕДИА НОВОСТИ РЕГИОН ЛАЙФ СПОРТ ГЕРЛЗ ХАЙТЕК ПЕРСОНЫ ИНСАЙД КРИМИНАЛ МОЛОДОСТЬ LIVE АВРОРА МЕДИА YOUTUBE RUTUBE

АВРОРА⭕️ХАЙТЕК®Z🇷🇺

СОФТ DEEPSEEK ВЫПУСТИЛА ЭКСПЕРИМЕНТАЛЬНУЮ ВЕРСИЮ ИИ МОДЕЛИ Китайская компания DeepSeek выпустила новую экспериментальную версию ИИ модели DeepSeek V3 2 Exp следует из заявления компании Согласно заявлению компании опубликованному в понедельник в официальном аккаунте в соцсети WeChat в новой версии была повышена эффективность обучения и умозаключений а также снижена стоимость API В заявлении отмечается что выпуск новой модели стал промежуточным шагом к новому поколению архитектуры ФОТО РИА Новости Владимир Астапкович аврорамедиа ии Telegram экосистема АВРОРА МЕДИА МЕДИА НОВОСТИ РЕГИОН ЛАЙФ СПОРТ ГЕРЛЗ ХАЙТЕК ПЕРСОНЫ ИНСАЙД КРИМИНАЛ МОЛОДОСТЬ LIVE АВРОРА МЕДИА YOUTUBE RUTUBE

Технологии124 дня назад

Интерфакс

Китайский ИИ стартап DeepSeek выпустил экспериментальную большую языковую модель DeepSeek V3 2 Exp Разработчик заявляет что благодаря интегрированному в модель подходу стоимость ее эксплуатации снижается вдвое пишет The Wall Street Journal Кроме того DeepSeek V3 2 Exp гораздо лучше проявляет себя в обучении Облачное подразделение Huawei сообщило о быстром завершении адаптации этой модели interfaxonline

Технологии124 дня назад

Похожие новости