29 сентября, 16:13
DeepSeek запускает новую модель V3 2 с улучшенной архитектурой и сниженной стоимостью


AI и точка.
Новая экспериментальная модель DeepSeek V3 2 уже вышла По сути это модификация недавней V3 1 Terminus модель заново дообучили используя новый механизм разреженного внимания На практике это привело к более эффективной работе с большим контекстом и увеличению скорости при сохранении общего интеллекта На некоторых бенчмарках зависящих от рассуждений есть даже небольшие просадки однако они возникают из за меньшего использования размышляющих токенов моделью При сопоставимых ресурсах разрыв пропадает отмечают разработчики Уже работает на сайте и в приложениях
Технологии7 часов назад


Железный Человек
DeepSeek выпустили экспериментальную модель V3 2 Exp За основу взяли архитектуру предыдущей версии V3 1 Terminus но добавили новую схему DeepSeek Sparse Attention DSA Модель фокусируется только на наиболее релевантных токенах снижая затраты памяти и ускоряя обработку длинных последовательностей Результаты на общих бенчмарках почти не изменились в сравнение с предыдущей версией на MMLU Pro 85 0 без роста или падения Но в задачах программирования заметен прирост на Codeforces модель набрала 2121 против 2046 у V3 1 Под капотом DeepSeek публикует несколько типов ядер TileLang DeepGEMM и FlashMLA Модель доступна на Hugging Face под лицензией MIT открыта для экспериментов и модификаций Революционным такой релиз точно не назовешь но так DeepSeek возможно готовит базу для следующего поколения параллельно проверяя новые технологии на практике с реальными пользователями Компания делает ставку на доступность Чем дешевле вызовы модели тем больше разработчиков начнут экспериментировать а это значит больше обратной связи больше данных для улучшения и выше шансы закрепиться в экосистеме Похоже компания тестирует не только архитектуру но и бизнес модель СверхРахум
Технологии1 час назад


Hi, AI! | Нейросети и технологии
DeepSeek V3 2 новая модель китайского стартапа DeepSeek выпустил новую версию своей нейросети Экспериментальная модель V3 2 это модифицированная версия недавней V3 1 Terminus с внедренным механизмом разреженного внимания Улучшенная архитектура позволяет модели эффективнее работать с длинным контекстом сохраняя уровень интеллекта В то же время в некоторых тестах чувствительных к количеству размышлений перед ответом есть небольшие просадки Разработчики отмечают что они появляются из за более кратких рассуждений модели Но если она будет тратить сопоставимое число токенов то разрыв пропадет Нововведения позволили сильно удешевить модель За 1 млн входных выходных токенов V3 2 по API просят всего 0 28 0 42 что в 2 и 4 раза ниже чем у V3 1 Terminus UPD DeepSeek V3 2 уже работает бесплатно в нашем боте 1 Перейдите в GPT4Telegrambot 2 Нажмите Выбрать модель Подпишитесь на Hi AI новости DeepSeek
Технологии6 часов назад


Lama News
DeepSeek обновился до V3 2 Exp Новинка построена на базе ранее выпущенной V3 1 Terminus Она на 50 дешевле и немного лучше в поиске Похоже V4 мы в ближайшее время не увидим Lama AI лама news
Технологии1 час назад
Похожие новости

![Аватар Телеграм канала: [PYTHON:TODAY]](https://content.tek.fm/b1b34d8d-c90a-4610-acef-b70d85544ddd.jpg)








+1



+4






+2

Стартап Skild AI представил универсальный мозг для роботов, способный адаптироваться к повреждениям
Технологии
1 день назад
![Аватар Телеграм канала: [PYTHON:TODAY]](https://content.tek.fm/b1b34d8d-c90a-4610-acef-b70d85544ddd.jpg)



Meta сосредоточится на разработке ПО для человекоподобных роботов
Технологии
8 часов назад



Cursor предлагает бесплатный мини-курс по AI для разработчиков
Общество
1 день назад




В Minecraft представлен новый ИИ-чатбот на базе редстоуна
Технологии
8 часов назад




GitHub запускает новый инструмент для создания виральных видео
Технологии
1 день назад



Китайская модель HunyuanImage 3.0: быстрая генерация текста на картинках на домашнем ПК
Технологии
1 день назад


