Душа Питона
08.02.2025 12:57
Российские учёные создали модель определения эмоций в речи В своей разработке CA-SER исследователи из AI-лаборатории Сбера, института AIRI и МФТИ объединили самообучение с использованием предобученной wav2vec 2.0 и акустических признаков MFCC через механизм перекрёстного внимания. К характеристикам речи добавляются данные о голосе, что и помогает выявлять эмоции Ещё подробности: ⏱ работает в режиме реального времени открыта для использования, можно адаптировать для голосовых ассистентов, call-центров, здравоохранения CA-SER показала точность 74,6% на сложном датасете IEMOCAP, опередив многие аналоги статью взяли в сборник крутой европейской конференции ECAI 2024 Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Душа Питона
07.02.2025 04:46
Gemini получает турбоскорость с Flash 2.0 Новая версия приложения, которую тестили ранее, ускоряет выполнение запросов и круче брейнштормит. Что ещё: апгрейдили генерацию картинок до Imagen 3 доступна на веб-платформе и смартфонах Предыдущие 1.5 Flash и 1.5 Pro ещё немного побудут. Но в Advanced останется знаменитый топовый объём контекста в 1 млн токенов, загрузка файлов до 1 500 страниц, Deep Research и Gems Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1
Душа Питона
04.02.2025 10:03
OpenAI на нервах по DeepSeek сразу с двумя релизами Выдали из загашников o3-mini ок, её обещали ещё до всего и Deep Research с поиском для умных o3-mini: 3 уровня сложности рассуждений обычная версия модели доступна бесплатно, но с лимитом Более производительной o3-mini-high могут воспользоваться платные пользователи всех тарифов на SWE-bench Verified точность 48,9% ⏱ ответы на 24% быстрее, чем у o1-mini 7,7 с против 10,16 с Deep Research: многоэтапные онлайн-исследования — за пару минут тулза находит то, на что людям требуются часы работает версия предстоящей модели o3, оптимизированная для веб-сёрфинга анализирует безумные объёмы текста, картинок и PDF
Душа Питона
22.01.2025 10:44
“Stargate” на старте: OpenAI запускает новый проект Компания приступила к осуществлению масштабного замысла, о котором я вам рассказывала весной прошлого года. Что такое “Stargate”: предполагает вложение $500 млрд в AI-инфраструктуру в Штатах. Первую сотню направят сразу ведущий партнёр OpenAI — SoftBank, председатель правления — Масаёси Сон проект спонсируют также Arm, Microsoft, Nvidia, Oracle Строительство начнётся в Техасе, но планируется расширение и по всей стране В общем, заявка серьёзная! OpenAI обещают мощный рывок вперёд и приглашают в новую эру технологических возможностей
Душа Питона
16.12.2024 14:32
Gemini 2.0 и компания Апгрейд модели Google позволяет генерить ассистентов, что сразу показали на примерах. По модели: экспериментальная флагманская Gemini 2.0 Flash мультимодальные скиллы на входе и выходе текст+картинка, аудио по тексту улучшенная логика и планирование быстрый отклик и высокая производительность А вот и прототипы агентов: Astra универсальный AI-помощник , Mariner для браузера и Jules ассистент для программистов . Доступ к Gemini 2.0 Flash через API в Google AI Studio и Vertex AI, масштабный запуск в январе
Душа Питона
06.12.2024 10:05
Улучшенный ChatGPT o1 открыт для пользователей OpenAI запустили модель для народа в полной версии. Премиальные функции обеспечивает модель o1, они включены в тариф GPT-o1 Pro. Стоимость тоже премиальная и самая высокая — $200 в месяц Что есть: топовые мощности и суперскорости. Модель отвечает на 60% быстрее опережает o1 в математическом бенчмарке AIME 2024 на 19,4%, в генерации кода — на 17,2% в тесте с вопросами уровня PhD GPQA Diamond лучше на 10,4% бонусом — доступ к другим моделям o1-mini и GPT-4o и Advanced Voice Mode тоже И это ещё не всё. Судя по анонсам, это первая ласточка в целом ряду новинок OpenAI. Изображение OpenAI
Душа Питона
08.11.2024 14:39
Microsoft пошли вразнос Пустили AI сразу в два популярных инструмента, разработали систему агентов и вообще замахнулись на новый бренд. покажу Paint, в котором появились Generative Fill и Generative Erase в старый добрый блокнот вдохнули жизнь функцией Rewrite. Может переписать, сократить, отрегулировать стиль Magnetic-One — штука посерьёзнее. Универсальная система агентов для сложных задач и разных сценариев. Чтобы похожим продуктам Swarm от OpenAI и CrewAI не было так скучно разрабы Apple Intelligence тоже повеселятся. По слухам, Microsoft задумала AI-ребрендинг Windows. Как будет называться? Правильно, Windows Intelligence Видео Microsoft
Душа Питона
31.10.2024 11:10
Centaur: получеловек, полу-AI Учёные DeepMind, Оксфорда, Кембриджа и других исследовательских центров, похоже, научили AI симуляции и прогнозированию поведения людей Файнтюнили новую модель на датасете Psych-101 10 млн решений 60 тысяч человек в 160 экспериментах . Что она может: справляется с предсказанием на многих тестовых датасетах, бьёт когнитивные модели в знакомых и экспериментальных сеттингах круто генерализуется до новых доменов и дизайнов исследований после файнтюнинга внутренние представления Centaur становятся похожими на организацию нейронов у человека Выходит, что модель не только симулирует наше поведение, но и аппроксимирует нейронные паттерны. Серьёзная заявка на имплементацию, имитирующую мышление людей cognitive model А это все шансы на революцию в когнитивных науках!
Душа Питона
29.10.2024 05:01
Act-One: кино и мультики Runway снова совершили прорыв. Обрабатывая видео, Gen-3 Alpha теперь генерит, по сути, готовую анимацию и даже живые кадры Есть возможность многократно использовать исходник, так как предлагаются разные стили. Голос альтернативный Вот, пожалуйста: реалистичная мимика, хотя внешне герой может сильно отличаться от оригинала качественная отрисовка ручная настройка не нужна Разработчик утверждает, что приняты все меры для мониторинга случаев неправомерного использования инструмента Знаменитостей брать на вход нельзя Доступ — скоро! Примеры — на видео.
Душа Питона
04.10.2024 10:54
OpenAI DevDay 2024: компания создаёт экосистему для разрабов Мероприятие прошло без громких презентаций. Впрочем, за последнее время у OpenAI было достаточно интересных запусков, а сейчас там и вовсе идут реформы. Выкатили апгрейды, повышающие доступность инструментов : Prompt Caching. Оперативное кэширование сокращает затраты. Здесь есть скидка в 50% на недавно обработанные токены ввода Хорошая экономия для использования контекста повторно. Vision Fine-Tuning. Настройка визуального восприятия модели с использованием изображений и текста. Годится для повышения эффективности AI в автономном транспорте, для медицинской визуализации и поиска Realtime API. Использование API в реальном времени уменьшает задержку при создании мультимодальных инструментов. Можно добавлять голос ChatGPT. Как пример: приложение для путешествий, в котором пользователь планирует поездку, болтая с AI Генерим говорящих ассистентов без необходимости объединять несколько моделей. Опция в стадии бета-тестирования. Model Distillation. Использование выходных данных продвинутых моделей o1-preview и GPT-4o для повышения производительности более доступных, но с меньшими вычислительными затратами