эйай ньюз
25.11.2025 11:33
Новое поколение синтеза речи в ГигаЧате Разрабочики команды синтеза речи в Сбере запустили новое поколение голосового режима Гигачата Голоса теперь собираются не из универсального диктора а из специализированных моделей Freespeech для живого общения голоса операторов колл центров подкастная и классическая дикторская подача В результате ассистент говорит ближе к человеку а не к автоответчику со вздохами и с более естественной интонацией Технически это полностью свой стек GigaChat 3b в роли языковой модели кастомный токенизатор звука и авторегрессионный синтез вместо диффузий Команда отдельно поработала над токенизацией речи системными промптами для стиля голоса учетом длинного контекста и клонированием за счёт этого новый синтез сильно обгоняет прошлое поколение по внутренним метрикам качества и естественности На фоне конкурентов типа Алисы упор идёт не на дикторский голос а на живость и выразительность речи Статья на хабре ai newz
эйай ньюз
24.11.2025 12:37
Сбер выкатил сразу четыре ключевые линейки в полный MIT опенсорс Флагман GigaChat Ultra Preview новая MoE модель собранная под русский язык и натренированная полностью с нуля Ultra Preview уже обходит DeepSeek V3 1 на русском бенчмарке MERA поддерживает длинный контекст до 128к токенов и она все еще не закончила свое обучение GitHub HuggingFace GitVerse Читайте подробную статью на Хабре от команды Рядом выходит Lightning более лёгкая MoE модель компактная и быстрая Конкурирует с Qwen3 4B по скорости сравнима с Qwen3 1 7B но намного умнее и больше по параметрам Она не уступает лучшим опенсорс моделям своего класса держит планку на русском выше аналогов и выдаёт сверхбыстрый инференс благодаря чему модель можно использовать там где Ultra избыточна а скорость критична Плюс стабильная маршрутизация экспертов а еще приятный бонус в виде поддержки 256к контекста GitHub Hugging Face GitVerse Новая линейка моделей генерации картинок и видео Kandinsky 5 0 Video Pro и версия Lite Video Lite и Image Lite выпущенная в октябре нативно понимают русские промпты культурный код и нормально пишут кириллицу Флагманская Video Pro сравнялась с Veo 3 по качеству и обогнала Wan 2 2 A14B А ещё подъехал K VAE 1 0 сейчас это один из лучших опенсорсных энкодеров для сжатия визуального контента и база для обучения генеративных моделей GitHub GitVerse Hugging Face Технический репорт В аудионаправлении выходит GigaAM v3 новое поколение распознавания речи показывающее 50 WER к Whisper large v3 и закрывающее все открытые решения на русском языке GitHub HuggingFace GitVerse Все модели от текста до видео можно ставить в свой контур доучивать под задачи и использовать коммерчески По сути это первый полностью открытый большой набор под русский язык который позволяет строить полноценные ИИ системы без зависимости от зарубежных моделей и ограничений ai newz
эйай ньюз
17.11.2025 11:04
Heretic автоматическое снятие цензуры с LLM В прошлом году несколько исследователей решило разобраться как именно работает механизм отказов в языковых моделях когда они блокируют вредные запросы Оказалось что за отказ LLM выполнять запрос отвечает одно единственное направление в пространстве активаций А вот сейчас на основе этого ресёрча сделали софт для автоматического снятия цензуры Heretic вычисляет направления отказа как разницу средних активаций между вредными и безвредными промптами затем ортогонализирует веса аттеншна и MLP проекций для удаления этого направления Оптимизатор автоматически подбирает параметры подавления минимизируя одновременно количество отказов и KL divergence от оригинальной модели Работает полностью автоматически просто запускаешь на любой поддерживаемой модели и через 45 минут получаешь версию без цензуры Поддерживает большинство популярных архитектур включая Llama Qwen Gemma и даже некоторые мультимодальные модели Той же gpt oss снятие цензуры точно не помешает github com p e w heretic ai newz
эйай ньюз
13.11.2025 15:27
Google DeepMind выкатили SIMA 2 апгрейднутую версию AI агента для игр В отличие от первой версии которая могла выполнять лишь базовые действия SIMA 2 может рассуждать о высокоуровневых целях и достигать их болтать с игроком и даже играть в игры которые никогда не видел типа ASKA или MineDojo Ну и конечно может ориентироваться в энвайроментах которые создаёт Genie 3 Это стало возможно во многом из за интеграции Gemini с более лайтовой агентной моделью которая и занимается непосредственным управлением Система 1 и Система 2 в действии Главная новая возможность самообучение SIMA 2 сама набивает опыт оценивает его через Gemini и улучшается без помощи человека По бенчмаркам уже довольно близко подобралась к человеческой производительности Конечно есть косяки с длинными многоходовками пока туго длины контекста не хватает да и с точным управлением мышкой проблемы В любом случае это серьезный шаг к универсальным ИИ агентам которых можно будет засунуть куда угодно Техрепорта пока нет но обещают ai newz
эйай ньюз
03.11.2025 15:09
Первая H100 вышла в космос В небольшом спутнике размером с мини холодильник влезли солнечные панели радиаторы и собственно компьютер с одной видеокартой В перспективе компания Starcloud собирается строить в космосе гигантские датацентры гигаваттного класса с миллионами видеокарт Ключевое преимущество на гелиосинхронной орбите всегда светит солнце что позволяет использовать в разы меньше солнечных панелей и не требует батарей или дополнительных электростанций для работы датацентра ночью Это позволяет заметно снизить цены на электричество и убирает зависимость от целых классов дефицитных компонентов с гигантскими сроками поставки Датацентр на пять гигаватт вместе с солнечными панелями будет весить примерно 20 тысяч тонн и занимать примерно 16 километров по площади Для контекста за всю историю космических полётов на орбиту суммарно было выведено около 40 тысяч тонн так что цель вывода такой махины на орбиту амбициозная но не невозможная Главный вопрос в цене в их вайтпейпере они рассчитывают на стоимость вывода килограмма на орбиту в 30 но экономика сходится и при цене в пару раз больше На текущих ракетах такой низкой цены не добиться нужно ждать ввода в эксплуатацию Starship А пока они тестят системы питания и охлаждения да и в целом как видеокарта ведёт себя в космосе ai newz
эйай ньюз
21.10.2025 17:44
ChatGPT Atlas ИИ браузер от OpenAI OpenAI сделали свой браузер прорыва не случилось просто взяли Chromium и интегрировали туда все свои AI фичи Добавили возможность чатится со своими вкладками и помощник для написания текста в любом текстовом поле Agent Mode теперь работает не только где то там в облаке но и в локальных вкладках со всеми доступами юзера интересно как это работает внутри и насколько сильно будет жрать батарею Поиск по истории браузера где можно описать страницу и браузер сможет её найти это первое использование памяти ChatGPT посмотрев на которое мне не захотелось сразу его выключить По дефолту на данных из браузера тренировка проводится не будет но можно opt in Браузер уже доступен всем пользователям на маках Agent Mode дают только платным подписчикам На другие платформы обещают завезти позже chatgpt com atlas ai newz
эйай ньюз
20.10.2025 07:01
Нейродайджест за неделю 91 Генеративные модели VEO 3 1 Google обновили свой видеогенератор Главное теперь можно редактировать сгенерированные видео прямо во Flow Также добавили генерацию по референсу и другие фичи для продакшена RIP Social Media Sora 2 уже автоматизируют для создания UGC рекламы Это может убить рынок вертикальных блогеров и заспамить ленты ещё сильнее Объём данных Sora 2 Модель знает лютую дичь из постсоветского ТВ вроде Малышевой но всё ещё не может сгенерить человека садящегося в машину Читать дайджест 90 дайджест ai newz
эйай ньюз
16.10.2025 17:54
VEO 3 1 Видеогкнератор от Google обновился до версии 3 1 Всё в целом стало получше особенно отмечают улучшения в img2video Но почему то мало кто говорит о том что во Flow теперь можно РЕДАКТИРОВАТЬ ВИДЕО впрочем Moviegen который я тренировал в Мете это тоже умеет Правда только сгенерированные видео но это как минимум намекает что скоро можно будет и обычные лицо Runway видели Кстати топ фича для нейронного продакшена даже в текущем формате Ну и по мелочи добавили Ингредиенты аналог Elements генерацию по start end фреймам продление видео и удобный prompt enhancer с пресетами А вот 1080p во Flow по прежнему отсутствует Sora 2 конечно хайпит но она будто бы для мемов сделана Veo 3 1 не слишком большой скачок вперёд но теперь это как минимум достойный конкурент Мне кажется в AI продакшене она всё ещё будет предпочтительнее ai newz
эйай ньюз
10.10.2025 13:41
MWS AI выпустила первый бенчмарк для тестирования мультимодальных моделей на русскоязычных документах MWS Vision Bench До этого момента разработчики могли полагаться только на OCRBench или MMMU которые работают исключительно с английским и китайским языками что делало невозможной адекватную оценку моделей для российского рынка Это решает реальную боль компаний теперь можно объективно сравнить насколько хорошо разные VLM модели справляются с типовыми задачами Что проверяет бенчмарк Распознавание текста на сканах договоров и официальных документов Извлечение структурированных данных из таблиц и форм Понимание рукописных заметок и аннотаций Работа со схемами чертежами и диаграммами Ответы на сложные вопросы по содержимому документов Бенчмарк включает 800 реальных изображений и 2580 заданий полностью обезличенных и максимально приближенных к реальным рабочим сценариям Команда MWS AI сделала бенчмарк полностью открытым код выложен на GitHub валидационный датасет доступен на HuggingFace Любой желающий может скачать запустить тесты на своих моделях и сравнить результаты с лидерами сейчас это Gemini 2 5 Pro Claude Sonnet 4 5 и ChatGPT 4 1 mini Архитектура позволяет добавлять новые типы задач и адаптировать бенчмарк под специфические кейсы То есть он может служить фундаментом для развития экосистемы русскоязычных мультимодальных моделей которые наконец то можно сравнивать по единым прозрачным метрикам ai newz
эйай ньюз
29.09.2025 19:18
Claude Sonnet 4 5 GPT 5 Codex уже побыла лучшей моделью для кодинга уже целых две недели так что пришло время для нового лидера Клода ещё больше прокачали в кодинге и агентных тасках где видно достаточно сильный прирост по бенчам Цену сохранили прежнюю Anthropic всё ещё упорно отказывается сбрасывать цены в отличие от всех конкурентов По заявлениям Anthropic новый Sonnet может автономно работать над задачей до 30 часов предыдущий рекорд 7 часов Я не уверен как именно это измеряют поэтому конкретно к этой части отношусь скептично Вместе с моделью обновили Claude Code до версии 2 0 Теперь Claude Code делает чекпоинты кодбазы перед каждым изменением так что их можно легко откатить Кроме этого обновили интерфейс и сделали расширение для VS Code И наконец то добавили возможность видеть оставшиеся лимиты использования моделей ai newz