27 марта, 08:13
Google анонсировала новую модель генерации речи Gemini 3 1 Flash Live, улучшая взаимодействие с ИИ
DNS_Club
Google представила Gemini 3 1 Flash Live речь ИИ стало сложнее отличить от человеческой Google анонсировала новую модель генерации речи Gemini 3 1 Flash Live Она рассчитана на живое общение и уже начинает появляться в сервисах компании Главное отличие скорость и естественность речи В Gemini сделали упор на снижение задержки и более человеческую интонацию
ARKA News Agency
Google начала внедрять новую ИИ модель для диалогов в реальном времени Новая модель Gemini 3 1 Flash Live предназначена для снижения задержки и повышения естественности синтезированной речи Она звучит ближе к человеческой речи поэтому в выходной аудиосигнал встроены водяные знаки SynthID Они не воспринимаются на слух но позволяют технически определить что речь сгенерирована ИИ если её попытаются выдать за настоящую Подписывайтесь на arkanewsagency
InterLink - СБОРКИ ИГРОВЫХ ПК / НОВОСТИ
Google делает голос Gemini заметно живее Google представила Gemini 3 1 Flash Live новую голосовую модель для общения в реальном времени где упор сделан на более естественную речь низкую задержку и быстрый отклик в диалоге Gemini 3 1 Flash Live это аудиомодель для голосового общения в реальном времени Сейчас она доступна разработчикам в режиме preview через Live API и Google AI Studio Google отдельно делает ставку на более естественный ритм речи и быстрые ответы в живом разговоре Модель рассчитана на голосовые и мультимодальные сценарии она умеет работать не только с речью но и с текстом изображениями и видео В описании модели отдельно упомянуты понимание интонации работа с числами и поддержка длинных диалогов Google называет её своей самой качественной голосовой моделью для диалога в реальном времени Все сгенерированные аудиоответы помечаются невидимыми метками SynthID На этой модели уже работают Search Live и Gemini Live так что это не просто эксперимент для разработчиков а база для новых голосовых сервисов Google Для голосового ИИ важнее естественная речь или минимальная задержка Наши каналы Gооglе Аi
Neural Brain - Нейросети
ИИ стало невозможно отличить по голосу спасибо Google Google представила новую модель Gemini 3 1 Flash Live и она выводит голосовой ИИ на пугающе реалистичный уровень Теперь нейросеть не просто озвучивает текст а ведёт полноценный живой диалог с интонацией паузами и эмоциями ИИ стал лучше понимать тон темп и настроение речи ответы звучат естественно как у человека диалог происходит в реальном времени почти без задержек В аудио встраивают невидимые водяные знаки которые позволяют определить что голос сгенерирован ИИ Но проблема в том что на слух мы это уже не поймём И главный вопрос теперь можно ли вообще доверять тому что мы слышим
GPT/ChatGPT/AI Central Александра Горного
Вышел мультимодальный Qwen3 5 Omni Модель принимает на вход текст картинки аудио и видео а на выходе генерирует текст и речь Распознавание речи охватывает 113 языков а синтез 36 Alibaba заявляет что в большинстве бенчмарков на распознавание аудио Qwen3 5 Omni обходит всех конкурентов включая Gemini 3 1 Pro Доступ пока только через API qwen ai blog id qwen3 5 omni
Нейроцех
Что нового в мире ИИ Alibaba выпустила Qwen3 5 Omni модель которая одновременно понимает текст изображения аудио и видео Можно описать идею голосом прямо в камеру и модель сгенерирует рабочий сайт или игру Умеет размечать видео с таймкодами распознает речь на 113 языках и обрабатывает до 10 часов аудио за раз Claude Code научился управлять компьютером прямо из командной строки Теперь агент может сам открывать приложения проверять интерфейс запускать сборки и отлаживать их в одном потоке Работает с десктопными приложениями и графическими интерфейсами OpenAI выпустила плагин который позволяет использовать Codex прямо внутри Claude Code Google представила Veo 3 1 Lite облегченную версию видеогенератора Стоит меньше половины от старшей версии Fast Генерирует видео из текста и из изображений в разрешении до 1080p длительностью 4 6 или 8 секунд PixVerse выпустил модель V6 Теперь можно создавать 15 секундные видео со звуком в 1080p Улучшены реалистичность движения детализация кожи и передача эмоций Добавлено кинематографическое управление камерой поддержка спецэффектов таймлапсов и многокадрового повествования Z AI представила AutoClaw приложение для запуска OpenClaw локально на своем компьютере Не требует API ключа работает сразу после установки Можно подключить любую модель или использовать встроенную GLM 5 Turbo Все данные хранятся локально и не покидают компьютер GLM представил GLM 5V Turbo модель которая превращает дизайн макеты и скриншоты в код Понимает изображения видео черновики дизайна и вёрстку документов Работает в связке с Claude Code и OpenClaw Google выпустила Gemma 4 новую модель для локальных устройств Модель мультимодальная распознает изображения видео и голос поэтому может работать как локальный голосовой помощник Код полностью открыт и разрешнн для коммерческого использования Microsoft запустила семейство моделей MAI MAI Transcribe 1 распознант речь на 25 языках и работает в 2 5 раза быстрее текущих решений Azure MAI Voice 1 генерирует естественную речь для голосовых агентов MAI Image 2 генерирует изображения и вошел в топ 3 мирового рейтинга Arena ai особенно хорошо справляясь с текстом внутри картинок и фотореализмом Alibaba выпустила Qwen 3 6 Plus Улучшены навыки программирования от фронтенда до работы с большими кодовыми базами Модель быстрее и надёжнее предыдущей версии Qwen 3 5 Cursor представил Cursor 3 с обновлннным интерфейсом Главное нововведение теперь можно одновременно запускать несколько ИИ агентов и распределять между ними задачи Агенты работают на локальном компьютере в облаке или на удаленном сервере дайджест neurozeh
Machinelearning
Google представила голосовую модель Gemini 3 1 Flash Live Модель превосходит 2 5 Flash Native Audio по скорости отклика и тоньше распознает акустические нюансы темп и высоту голоса Важным техническим улучшением стала способность эффективно фильтровать фоновый шум Модель уже доступна через Gemini Live API в платформе Google AI Studio Gemini 3 1 Flash Live лучше справляется с вызовом внешних инструментов и строго следует системным инструкциям Модель не выходит за установленные рамки при неожиданных поворотах диалога и поддерживает мультимодальное общение на 90 языках в реальном времени Новинка ляжет в основу потребительских сервисов Gemini Live и Search Live Общение с ИИ станет более плавным сократится количество неловких пауз а контекст беседы будет удерживаться в 2 раза дольше Параллельно с релизом модели Google делает Search Live доступной более чем в 200 странах blog google Mistral релизнула открытую text to speech модель Voxtral Модель для синтеза речи Voxtral TTS поддерживает 9 языков русского нет и умеет клонировать голос по аудиосэмплу короче 5 секунд копируя не только тембр но и микроинтонации акценты и естественные особенности дикции При этом она способна на лету менять язык произношения сохраняя оригинальные характеристики спикера Архитектура построена на базе LLM Ministral 3B Создатели сделали ставку на скорость работы в реальном времени генерация 10 секундной аудиодорожки занимает около 1 6 секунды Веса базовой модели опубликованы на Hugging Face под некоммерческой лицензией а протестировать Voxtral TTS можно через Mistral Studio и Le Chat mistral ai Cohere выпустила открытую ASR модель Cohere Transcribe обученная с нуля на 14 языках модель автоматического распознавания речи на 2 млрд параметров на архитектуре Conformer которая справляется со сложной акустикой перекрывающимися голосами и специфическими акцентами Cohere заявляет рекордную точность Transcribe возглавила рейтинг HuggingFace Open ASR Leaderboard средний показатель WER для английского языка составил всего 5 42 Модель обошла Whisper Large v3 от OpenAI ElevenLabs Scribe v2 и Qwen3 ASR Развернуть модель можно локально на edge устройствах либо воспользоваться API и платформой Cohere Model Vault Веса доступны на Hugging Face cohere com Intel выводит на рынок видеокарты Arc Pro B70 и B65 с 32 ГБ памяти Новые GPU на архитектуре Battlemage созданы специально для инференса нейросетей и ресурсоемких вычислений Старшая модель Arc Pro B70 получила 32 ядра Xe с частотой 2 8 ГГц что дает 22 9 TFLOPS в операциях FP32 Младшая версия Arc Pro B65 сохраняет тот же объем видеопамяти но использует лишь 20 ядер Xe Обе карты оснащены памятью GDDR6 с 256 битной шиной и пропускной способностью 608 ГБ с Arc Pro B70 уже поступила в продажу по цене 949 что делает ее значительно доступнее Nvidia RTX Pro 4000 1800 Младшая модель B65 начнет продаваться через партнерскую сеть Intel в середине апреля newsroom intel com GitHub по умолчанию начнет использовать код пользователей Copilot для обучения ИИ С 24 апреля обновится политика конфиденциальности GitHub Промпты сгенерированные ответы фрагменты кода и связанный с ними контекст подписчиков тарифов Free Pro и Pro будут автоматически собираться для тренировки моделей Чтобы защитить свои проекты разработчикам придется вручную отключить передачу данных в настройках приватности Платформа анализирует широкий спектр данных В датасет попадает код комментарии и документация архитектура репозитория названия файлов паттерны навигации в IDE и реакции на предложенные автодополнения GitHub заявляет что собранная телеметрия может передаваться только Microsoft и ее аффилированным компаниям Нововведение не затронет корпоративный сегмент планов Copilot Business и Enterprise github blog ai machinelearning big data news ai ml
Чёрный Треугольник
Alibaba представила Qwen3 5 Omni Это мультимодальная ИИ модель нового поколения которая нативно работает с текстом изображениями аудио и видео а также генерирует речь в реальном времени Серия включает три размера Instruct версий Plus Flash и Light все поддерживают контекст до 256k токенов Модель способна нативно принимать на вход более 10 часов аудио или более 400 секунд видео в формате 720p По аудио пониманию рассуждению распознаванию переводу и диалогам модель превосходит Gemini 3 1 Pro а в аудио видео понимании выходит на его уровень Одна из ключевых демонстраций режим Audio Visual Vibe Coding пользователь описывает камере свою идею а Qwen3 5 Omni Plus в реальном времени генерирует работающий сайт или игру по голосовому описанию с визуальным контекстом Фактически это шаг к полноценному мультимодальному взаимодействию где модель одновременно видит слышит и программирует ИИ также получила семантические прерывания клонирование голоса и управление голосом темп эмоции громкость что делает диалог значительно ближе к человеческому Распознавание речи теперь охватывает 113 языков и диалектов а генерация 36 News Soft Hacker
Neural Brain - Нейросети
Alibaba выкатила ИИ который может работать как автономный разработчик Компания представила новую модель Qwen 3 6 Plus это и есть попытка создать полуавтономного AI агента Qwen 3 6 Plus умеет писать и исправлять код на уровне проектов работать с репозиториями целиком выполнять команды в терминале планировать задачи и доводить их до результата Модель построена вокруг концепции capability loop то есть она по шагам анализирует задачу планирует решение выполняет шаги проверяет результат В дополнение ко всему этому есть контекст до 1 миллиона токенов улучшенная работа с кодом и мультимодальность понимает текст изображения интерфейсы Пишите в комментариях какой нейросетью сейчас пользуетесь
Machinelearning
Qwen 3 6 Plus забрал все три первых места на OpenRouter Одновременно Alibaba выкатили новую модель и она сразу заняла 1 в трех рейтингах OpenRouter Daily Weekly и Trending Такого там раньше никто не делал Модель уже вышла из триала и доступна в проде По первым отзывам латенси ниже рассуждения на уровне топовых моделей а цена за токен заметно приятнее конкурентов Доступна через Qwen Cloud Alibaba Cloud Model Studio OpenRouter и Fireworks AI Из коробки интегрируется с OpenClaw Kilo Code Cline opencode и Qoder Для тех кто сейчас выбирает модель под продакшен есть смысл погонять на своих задачах Достижения на OpenRouter звучат красиво но синтетические бенчмарки и реальные пайплайны вещи разные Интересно посмотреть как она поведет себя на длинных контекстах и сложных мультистеповых цепочках openrouter ai qwen qwen3 6 plus fireworks ai models fireworks qwen3p6 plus ai machinelearning big data qwen
Похожие новости +8 +11
Apple внедряет поддержку сторонних ИИ ассистентов в iOS 27
Технологии
1 день назадOpenAI анонсировала новую модель GPT 5 5 Instant для всех пользователей ChatGPT
Технологии
1 день назадChrome незаметно загружает модель Gemini Nano на устройства пользователей
Технологии
1 день назадGoogle анонсировала The Android Show с обновлениями Android 17 на 12 мая
Технологии
21 час назадApple анонсирует возможность выбора сторонних ИИ моделей в iOS 27
Технологии
1 день назадTelegram обновляет функции для улучшения работы с ботами и кастомизации контента
Технологии
14 часов назад