12 мая, 21:07
Thinking Machines анонсирует новые модели взаимодействия с ИИ для живого общения

Редакционное саммари
Стартап Thinking Machines, основанный бывшим техническим директором OpenAI Мирой Мурати, представил новую модель взаимодействия с искусственным интеллектом, которая позволяет вести диалог в режиме реального времени. Эта система, названная TML Interaction, способна одновременно обрабатывать речь и генерировать ответы, что делает общение с ИИ более естественным и интерактивным.
Модель TML Interaction работает на основе технологии, которая делит входящий поток информации на короткие отрезки по 200 миллисекунд. Это позволяет ИИ не ждать завершения фразы пользователя, а реагировать на его слова практически мгновенно, с задержкой всего 0,4 секунды. В отличие от традиционных чат-ботов, которые функционируют по принципу "пользователь написал — модель ответила", новая система может перебивать собеседника, корректировать его произношение и даже параллельно выполнять поиск информации. Разработчики планируют предоставить ограниченный доступ к модели в ближайшие месяцы, а более широкий релиз ожидается до конца года.
Несмотря на многообещающие характеристики, разработка сталкивается с определенными техническими вызовами. Например, интеграция большой модели в процесс взаимодействия может оказаться затруднительной из-за медленной обработки данных. Поэтому авторы предлагают разделить систему на две части: быструю модель для живого диалога и фоновую модель, которая будет заниматься более сложными задачами. Если удастся преодолеть существующие сложности, это может значительно изменить подход к взаимодействию человека и ИИ, открывая новые возможности для применения технологий в различных сферах.


PRO AI | ПОЛЕЗНЫЙ СОФТ | НОВОСТИ
Компания Thinking Machines основанная бывшим CTO OpenAI Мира Мурати анонсировала разработку моделей взаимодействия Эти модели позволят людям сотрудничать с ИИ так как мы естественно взаимодействуем друг с другом Они будут способны обрабатывать аудио видео и текст реагируя и действуя в реальном времени На данный момент существующие модели работают в одном потоке ожидая завершения ввода от пользователя что ограничивает их способность к взаимодействию PRO AI OFFICIAL

GPT/ChatGPT/AI Central Александра Горного
Thinking Machines показала AI с которым можно работать почти вживую Лаборатория Миры Мурати представила исследовательскую версию interaction models Это модели которые умеют взаимодействовать с человеком в реальном времени через текст голос и видео Обычные чат боты чаще работают по очереди человек написал или сказал модель ответила Thinking Machines хочет уйти от этой схемы Их модель постоянно получает поток данных может слушать смотреть отвечать перебивать в нужный момент и параллельно запускать поиск или другие инструменты Всё это происходит проактивно без команды пользователя В основе подхода короткие отрезки по 200 миллисекунд Модель не ждёт пока пользователь закончит мысль Происходящее обрабатывается почти непрерывно Например она может поправлять произношение во время речи или комментировать действие на экране В ближайшее время модель выпустят для исследователей Более широкий релиз обещают позже в этом году thinkingmachines ai blog interaction models

vc.ru
Стартап Thinking Machines Lab бывшего техдиректора OpenAI Миры Мурати впервые показал свою разработку TML Interaction Это модель взаимодействия которая должна приблизить общение с ИИ моделями к человеческому Нейросеть одновременно обрабатывает аудио и видео и обдумывает ответ быстро реагирует на перебивания и может перебить сама параллельно ищет в интернете и визуализирует данные vc ru ai 2922221

PROAI
Thinking Machines показала модель которая одновременно обрабатывает голос видео и текст Она реагирует примерно за 0 4 секунды и не ждет окончания фразы как обычные чат боты Вместо очередности реплик постоянные микро реакции уточнения короткие ответы реакция на интонацию и изображение Похоже индустрия постепенно уходит от формата запрос ответ к системам которые ведут разговор почти непрерывно Пока это исследовательский превью а не массовый продукт Бесплатный GPT Экспертный канал

Data Secrets
Thinking Machines предложили новый тип моделей которые могут работать в потоке Они назвали это interaction models Идея в том что такая модель изначально обучается для живого взаимодействия с человеком в отличие от линейных интерфейсов в формате пользователь написал модель ответила к которым мы привыкли Например она не ждет конца фразы чтобы начать генерировать ответ может перебить если видит ошибку способна говорить одновременно с пользователем незаменимо для live перевода Технически что самое интересное это делается не через какие то внешние адаптеры а вшивается прямо в процесс трейна Сама живость диалога достигается за счет разделения входного потока на маленькие чанки примерно по 200 мс которые поступают в модель в формате стриминга То есть пока пользователь еще говорит модель уже видит новые токены и может начать что то генерировать За счет этого и становится возможным перебивание живой перевод и прочее Звучит прямо интересно с такой моделью хотелось бы поболтать Но с инженерной точки зрения есть проблемы Например большую модель в такой процесс встроить почти невозможно будет слишком медленно Так что авторы предлагают делить систему на две части быструю interaction model которая поддерживает живой диалог и background model которая берет на себя ризонинг поиск инструменты и тд Когда фоновой модели есть что вернуть interaction model встраивает это в разговор Идея логичная но с большими сложностями в реализации и масштабировании Плюс контекст Для системы в текущем виде длинные сессии вообще неподъемны авторы это признают В общем замысел крайне занятный но пока что с большими дырами thinkingmachines ai blog interaction models


Технопроходцы
ИИ научился перебивать человека Стартап Thinking Machines Lab анонсировал ИИ систему которая общается в режиме реального телефонного разговора В отличие от существующих моделей где ИИ либо слушает либо говорит новая разработка обрабатывает речь и генерирует ответ одновременно Модель TML Interaction Small отвечает всего за 0 4 секунды как при естественной беседе Ограниченный доступ к модели обещают в ближайшие месяцы а широкая аудитория сможет опробовать ИИ до конца года Источник


Медиастанция
Стартап Thinking Machines основанный бывшим техдиректором OpenAI Мирой Мурати представил нейросеть которая умеет слушать и говорить одновременно Главная фишка нового ИИ отказ от пошагового общения к которому мы привыкли в классических чат ботах Модель TML Interaction работает в режиме полного дуплекса она анализирует вашу речь прямо во время генерации собственного ответа Это значит что алгоритм можно в любой момент перебить и он мгновенно с задержкой всего в 0 4 секунды подстроит диалог под новую информацию имитируя естественный телефонный разговор а не обмен аудиосообщениями Разработчики уже хвастаются что на тестах живого взаимодействия их система обошла аналоги от Google и OpenAI Ждем модели которые освоят коммуникативные техники ой все и я еще не закончила А если серьезно то это здоровский прорыв поздравляем разработчиков mediastanciacom Медиастанция в MAX
Похожие новости



+3



+3





+3
![Аватар Телеграм канала: TechGPT [🅽 🅴 🆆 🆂] 🤖](https://content.tek.fm/2972f683-eab7-4e0a-9c08-d11cb3f2e57d.jpg)






+5

Сотрудники OpenAI реализовали акции на 6,6 миллиарда долларов
Экономика
18 часов назад


+3
Google предотвращает первую атаку с использованием ИИ на двухфакторную аутентификацию
Технологии
7 часов назад


+3
Новые ИИ-сервисы для преобразования речи в текст: от Яндекс до Nothing
Технологии
20 часов назад

OpenAI запускает инициативу Daybreak для автоматизации защиты от уязвимостей
Технологии
1 день назад


+3
Китаец создает короткометражный фильм с помощью ИИ, сравниваемый с 'Любовь, смерть и роботы'
Общество
1 час назад![Аватар Телеграм канала: TechGPT [🅽 🅴 🆆 🆂] 🤖](https://content.tek.fm/2972f683-eab7-4e0a-9c08-d11cb3f2e57d.jpg)



Google анонсирует обновление Gemini Intelligence и новые функции Android 17
Технологии
17 часов назад


+5