27 марта, 08:13

Google анонсировала новую модель генерации речи Gemini 3 1 Flash Live, улучшая взаимодействие с ИИ

#Google #Cohere #GitHub #Intel #Mistral #Сша

Google представила Gemini 3 1 Flash Live речь ИИ стало сложнее отличить от человеческой Google анонсировала новую модель генерации речи Gemini 3 1 Flash Live Она рассчитана на живое общение и уже начинает появляться в сервисах компании Главное отличие скорость и естественность речи В Gemini сделали упор на снижение задержки и более человеческую интонацию

Технологии41 день назад

ARKA News Agency

Google начала внедрять новую ИИ модель для диалогов в реальном времени Новая модель Gemini 3 1 Flash Live предназначена для снижения задержки и повышения естественности синтезированной речи Она звучит ближе к человеческой речи поэтому в выходной аудиосигнал встроены водяные знаки SynthID Они не воспринимаются на слух но позволяют технически определить что речь сгенерирована ИИ если её попытаются выдать за настоящую Подписывайтесь на arkanewsagency

Технологии41 день назад

Video is not supported

InterLink - СБОРКИ ИГРОВЫХ ПК / НОВОСТИ

Google делает голос Gemini заметно живее Google представила Gemini 3 1 Flash Live новую голосовую модель для общения в реальном времени где упор сделан на более естественную речь низкую задержку и быстрый отклик в диалоге Gemini 3 1 Flash Live это аудиомодель для голосового общения в реальном времени Сейчас она доступна разработчикам в режиме preview через Live API и Google AI Studio Google отдельно делает ставку на более естественный ритм речи и быстрые ответы в живом разговоре Модель рассчитана на голосовые и мультимодальные сценарии она умеет работать не только с речью но и с текстом изображениями и видео В описании модели отдельно упомянуты понимание интонации работа с числами и поддержка длинных диалогов Google называет её своей самой качественной голосовой моделью для диалога в реальном времени Все сгенерированные аудиоответы помечаются невидимыми метками SynthID На этой модели уже работают Search Live и Gemini Live так что это не просто эксперимент для разработчиков а база для новых голосовых сервисов Google Для голосового ИИ важнее естественная речь или минимальная задержка Наши каналы Gооglе Аi

Технологии40 дней назад

Neural Brain - Нейросети

ИИ стало невозможно отличить по голосу спасибо Google Google представила новую модель Gemini 3 1 Flash Live и она выводит голосовой ИИ на пугающе реалистичный уровень Теперь нейросеть не просто озвучивает текст а ведёт полноценный живой диалог с интонацией паузами и эмоциями ИИ стал лучше понимать тон темп и настроение речи ответы звучат естественно как у человека диалог происходит в реальном времени почти без задержек В аудио встраивают невидимые водяные знаки которые позволяют определить что голос сгенерирован ИИ Но проблема в том что на слух мы это уже не поймём И главный вопрос теперь можно ли вообще доверять тому что мы слышим

Технологии37 дней назад

GPT/ChatGPT/AI Central Александра Горного

Вышел мультимодальный Qwen3 5 Omni Модель принимает на вход текст картинки аудио и видео а на выходе генерирует текст и речь Распознавание речи охватывает 113 языков а синтез 36 Alibaba заявляет что в большинстве бенчмарков на распознавание аудио Qwen3 5 Omni обходит всех конкурентов включая Gemini 3 1 Pro Доступ пока только через API qwen ai blog id qwen3 5 omni

Технологии37 дней назад

Нейроцех

Что нового в мире ИИ Alibaba выпустила Qwen3 5 Omni модель которая одновременно понимает текст изображения аудио и видео Можно описать идею голосом прямо в камеру и модель сгенерирует рабочий сайт или игру Умеет размечать видео с таймкодами распознает речь на 113 языках и обрабатывает до 10 часов аудио за раз Claude Code научился управлять компьютером прямо из командной строки Теперь агент может сам открывать приложения проверять интерфейс запускать сборки и отлаживать их в одном потоке Работает с десктопными приложениями и графическими интерфейсами OpenAI выпустила плагин который позволяет использовать Codex прямо внутри Claude Code Google представила Veo 3 1 Lite облегченную версию видеогенератора Стоит меньше половины от старшей версии Fast Генерирует видео из текста и из изображений в разрешении до 1080p длительностью 4 6 или 8 секунд PixVerse выпустил модель V6 Теперь можно создавать 15 секундные видео со звуком в 1080p Улучшены реалистичность движения детализация кожи и передача эмоций Добавлено кинематографическое управление камерой поддержка спецэффектов таймлапсов и многокадрового повествования Z AI представила AutoClaw приложение для запуска OpenClaw локально на своем компьютере Не требует API ключа работает сразу после установки Можно подключить любую модель или использовать встроенную GLM 5 Turbo Все данные хранятся локально и не покидают компьютер GLM представил GLM 5V Turbo модель которая превращает дизайн макеты и скриншоты в код Понимает изображения видео черновики дизайна и вёрстку документов Работает в связке с Claude Code и OpenClaw Google выпустила Gemma 4 новую модель для локальных устройств Модель мультимодальная распознает изображения видео и голос поэтому может работать как локальный голосовой помощник Код полностью открыт и разрешнн для коммерческого использования Microsoft запустила семейство моделей MAI MAI Transcribe 1 распознант речь на 25 языках и работает в 2 5 раза быстрее текущих решений Azure MAI Voice 1 генерирует естественную речь для голосовых агентов MAI Image 2 генерирует изображения и вошел в топ 3 мирового рейтинга Arena ai особенно хорошо справляясь с текстом внутри картинок и фотореализмом Alibaba выпустила Qwen 3 6 Plus Улучшены навыки программирования от фронтенда до работы с большими кодовыми базами Модель быстрее и надёжнее предыдущей версии Qwen 3 5 Cursor представил Cursor 3 с обновлннным интерфейсом Главное нововведение теперь можно одновременно запускать несколько ИИ агентов и распределять между ними задачи Агенты работают на локальном компьютере в облаке или на удаленном сервере дайджест neurozeh

Технологии31 день назад

Video is not supported

Machinelearning

Google представила голосовую модель Gemini 3 1 Flash Live Модель превосходит 2 5 Flash Native Audio по скорости отклика и тоньше распознает акустические нюансы темп и высоту голоса Важным техническим улучшением стала способность эффективно фильтровать фоновый шум Модель уже доступна через Gemini Live API в платформе Google AI Studio Gemini 3 1 Flash Live лучше справляется с вызовом внешних инструментов и строго следует системным инструкциям Модель не выходит за установленные рамки при неожиданных поворотах диалога и поддерживает мультимодальное общение на 90 языках в реальном времени Новинка ляжет в основу потребительских сервисов Gemini Live и Search Live Общение с ИИ станет более плавным сократится количество неловких пауз а контекст беседы будет удерживаться в 2 раза дольше Параллельно с релизом модели Google делает Search Live доступной более чем в 200 странах blog google Mistral релизнула открытую text to speech модель Voxtral Модель для синтеза речи Voxtral TTS поддерживает 9 языков русского нет и умеет клонировать голос по аудиосэмплу короче 5 секунд копируя не только тембр но и микроинтонации акценты и естественные особенности дикции При этом она способна на лету менять язык произношения сохраняя оригинальные характеристики спикера Архитектура построена на базе LLM Ministral 3B Создатели сделали ставку на скорость работы в реальном времени генерация 10 секундной аудиодорожки занимает около 1 6 секунды Веса базовой модели опубликованы на Hugging Face под некоммерческой лицензией а протестировать Voxtral TTS можно через Mistral Studio и Le Chat mistral ai Cohere выпустила открытую ASR модель Cohere Transcribe обученная с нуля на 14 языках модель автоматического распознавания речи на 2 млрд параметров на архитектуре Conformer которая справляется со сложной акустикой перекрывающимися голосами и специфическими акцентами Cohere заявляет рекордную точность Transcribe возглавила рейтинг HuggingFace Open ASR Leaderboard средний показатель WER для английского языка составил всего 5 42 Модель обошла Whisper Large v3 от OpenAI ElevenLabs Scribe v2 и Qwen3 ASR Развернуть модель можно локально на edge устройствах либо воспользоваться API и платформой Cohere Model Vault Веса доступны на Hugging Face cohere com Intel выводит на рынок видеокарты Arc Pro B70 и B65 с 32 ГБ памяти Новые GPU на архитектуре Battlemage созданы специально для инференса нейросетей и ресурсоемких вычислений Старшая модель Arc Pro B70 получила 32 ядра Xe с частотой 2 8 ГГц что дает 22 9 TFLOPS в операциях FP32 Младшая версия Arc Pro B65 сохраняет тот же объем видеопамяти но использует лишь 20 ядер Xe Обе карты оснащены памятью GDDR6 с 256 битной шиной и пропускной способностью 608 ГБ с Arc Pro B70 уже поступила в продажу по цене 949 что делает ее значительно доступнее Nvidia RTX Pro 4000 1800 Младшая модель B65 начнет продаваться через партнерскую сеть Intel в середине апреля newsroom intel com GitHub по умолчанию начнет использовать код пользователей Copilot для обучения ИИ С 24 апреля обновится политика конфиденциальности GitHub Промпты сгенерированные ответы фрагменты кода и связанный с ними контекст подписчиков тарифов Free Pro и Pro будут автоматически собираться для тренировки моделей Чтобы защитить свои проекты разработчикам придется вручную отключить передачу данных в настройках приватности Платформа анализирует широкий спектр данных В датасет попадает код комментарии и документация архитектура репозитория названия файлов паттерны навигации в IDE и реакции на предложенные автодополнения GitHub заявляет что собранная телеметрия может передаваться только Microsoft и ее аффилированным компаниям Нововведение не затронет корпоративный сегмент планов Copilot Business и Enterprise github blog ai machinelearning big data news ai ml

Технологии41 день назад

Video is not supported

Чёрный Треугольник

Alibaba представила Qwen3 5 Omni Это мультимодальная ИИ модель нового поколения которая нативно работает с текстом изображениями аудио и видео а также генерирует речь в реальном времени Серия включает три размера Instruct версий Plus Flash и Light все поддерживают контекст до 256k токенов Модель способна нативно принимать на вход более 10 часов аудио или более 400 секунд видео в формате 720p По аудио пониманию рассуждению распознаванию переводу и диалогам модель превосходит Gemini 3 1 Pro а в аудио видео понимании выходит на его уровень Одна из ключевых демонстраций режим Audio Visual Vibe Coding пользователь описывает камере свою идею а Qwen3 5 Omni Plus в реальном времени генерирует работающий сайт или игру по голосовому описанию с визуальным контекстом Фактически это шаг к полноценному мультимодальному взаимодействию где модель одновременно видит слышит и программирует ИИ также получила семантические прерывания клонирование голоса и управление голосом темп эмоции громкость что делает диалог значительно ближе к человеческому Распознавание речи теперь охватывает 113 языков и диалектов а генерация 36 News Soft Hacker

Технологии37 дней назад

Neural Brain - Нейросети

Alibaba выкатила ИИ который может работать как автономный разработчик Компания представила новую модель Qwen 3 6 Plus это и есть попытка создать полуавтономного AI агента Qwen 3 6 Plus умеет писать и исправлять код на уровне проектов работать с репозиториями целиком выполнять команды в терминале планировать задачи и доводить их до результата Модель построена вокруг концепции capability loop то есть она по шагам анализирует задачу планирует решение выполняет шаги проверяет результат В дополнение ко всему этому есть контекст до 1 миллиона токенов улучшенная работа с кодом и мультимодальность понимает текст изображения интерфейсы Пишите в комментариях какой нейросетью сейчас пользуетесь

Технологии29 дней назад

Machinelearning

Qwen 3 6 Plus забрал все три первых места на OpenRouter Одновременно Alibaba выкатили новую модель и она сразу заняла 1 в трех рейтингах OpenRouter Daily Weekly и Trending Такого там раньше никто не делал Модель уже вышла из триала и доступна в проде По первым отзывам латенси ниже рассуждения на уровне топовых моделей а цена за токен заметно приятнее конкурентов Доступна через Qwen Cloud Alibaba Cloud Model Studio OpenRouter и Fireworks AI Из коробки интегрируется с OpenClaw Kilo Code Cline opencode и Qoder Для тех кто сейчас выбирает модель под продакшен есть смысл погонять на своих задачах Достижения на OpenRouter звучат красиво но синтетические бенчмарки и реальные пайплайны вещи разные Интересно посмотреть как она поведет себя на длинных контекстах и сложных мультистеповых цепочках openrouter ai qwen qwen3 6 plus fireworks ai models fireworks qwen3p6 plus ai machinelearning big data qwen

Технологии29 дней назад