Data Secrets
04.09.2024 06:02
CEO OpenAI Japan на презентации заявил, что следующий GPT будет в 100 раз мощнее предыдущего, и проговорился, что появится модель в этом году При этом предполагается, что мощи вырастут не за счет объема вычислительных ресурсов, а в основном благодаря улучшениям в архитектуре и эффективности обучения. Тадао Нагасаки также упомянул Orion, который недавно был в центре новостей. Он рассказал, что модель обучалась именно в прошедшем времени на 10к H100.
Data Secrets
02.09.2024 08:57
Новая китайская моделька Minimax video-01 для генерации видео просто поражает Для демо разработчики нагенерировали целый фильм. До этого приблизительное такое делали только с SORA и то было много вопросиков . В целом, выглядит очень мощно. Движения плавные и естественные, при этом не скованные: то есть это не немного ожившие картинки, а именно какой-то экшн. В стартап Minimax инвестируют китайские гиганты Alibaba и Tencent. До этого ресерчеры оттуда, кстати, разрабатывали свою LLM. Больше примеров генерации можно посмотреть тут, а потестить самостоятельно здесь.
Data Secrets
31.08.2024 05:37
Нет, это не парень в странном спортивном костюме. Это только что выпущенный робот гуманоид NEO Beta от лаборатории 1X. Сам он весит всего 30 кг, но поднять может до 20. Ходит со скоростью ~4км/час, а еще может бегать со скоростью до 12км/час. Батареи ему хватает на 2-4 часа. Предназначен главным образом для бытовых дел по дому и, судя по демо, для обнимашек с хозяйкой .
Data Secrets
26.08.2024 17:41
Тем временем Илон Маск выкладывает в Твиттере видео с того самого суперкластера Cortex, на котором обещает обучить «самый мощный ИИ в мире» АКА Grok-3. Кластер находится в штаб-квартире Tesla в Остине. Как вам?
Data Secrets
21.08.2024 07:14
Microsoft выпустили Phi 3.5 Всего релизнули три варианта модели: Phi 3.5 mini instruct. Всего 3.8В параметров, 128К контекста. Эта малышка обгоняет Llama 3.1 8B и Mistral 7B и приближается к Mistral NeMo 12B! Обучалась 10 дней на 3.4T токенов с использованием 512 штук видеокарт H100. Phi 3.5 MoE. Здесь 16x3.8B с двумя экспертами. Контекст также 128К. Эта обучалась уже подольше – 23 дня на 4.9Т токенов на том же кластере. Модель обгоняет Gemini flash! Phi 3.5 Vision instruct VLM . 4.2В. Обучалась на 500В токенов. И, приготовьтесь: по усредненным бенчмаркам эта модель оставляет позади всех кроме GPT-4o и Gemini 1.5 Pro и то с небольшим отрывом . Самый громкий и крутой релиз Microsoft за последнее время. Веса всех моделей лежат тут на HF. Будем ждать на Арене.
Data Secrets
20.08.2024 08:05
AMD собирается приобретать ZT Systems за почти $5 миллиардов Видимо, AMD надоело дышать в спину Nvidia и они решили что-то делать. ZT Systems – это компания, которая занимается дизайном вычислений и инфраструктуры для ИИ. Кстати, сейчас ZT Systems также тесно сотрудничает с Intel и Nvidia. То есть возможно, AMD не просто покупают ценную компанию, а еще и лишают конкурента важного партнерства
Data Secrets
19.08.2024 17:18
Окружен, но не сломлен: CEO графического редактора Procreate Джеймс Куда заявил, что никогда не будет внедрять ИИ ни в один из продуктов. «Я, бл дь, ненавижу ИИ. Мы тут ценим человеческое творчество». За 14 часов ролик собрал 3 млн просмотров и 16 тысяч репостов. Вот что бывает, когда ломаешь систему.
Data Secrets
17.08.2024 07:20
Новая линейка продуктов Apple возможно будет… руками робота Компания решила зайти на рынок домашних роботов. Говорят, проект разрабатывается уже два года, но в последнее время команда активизировалась. Теперь «несколько сотен» человек по слухам работают над рукой робота, к которой будет прикреплено нечто вроде iPad. Как это будет работать, пока неясно. Зато ясно, что, учитывая историю Apple с self-driving cars, с робототехникой у них тоже могут возникнуть трудности…
Data Secrets
16.08.2024 14:44
На ACL показали новую архитектуру быстрых языковых моделей Статью про новую архитектуру уже успели процитировать Принстонский университет и университет Карнеги-Меллона, а с 11 по 16 августа ребята из лаборатории T-Bank AI Research выступали с ней на ACL – главной NLP’шной конфе мира. Идея исследования: трансформеры крутые, но медленные, а линейные модели быстрые, но не очень крутые. Как найти между ними баланс? В T-Bank AI Research предложили взять модель Based, которая сочетает в себе обучаемое ядро для линейных трансформеров и короткие свертки, и немного подправить это самое ядро. Они добавили новые обучаемые параметры и упростили аттеншен. В итоге метрики подскочили, модель стала лучше работать с длинным контекстом и в среднем понимание взаимосвязей в тексте улучшилось на 10%. Получается, ребятам удалось взять линейную модель и приблизить ее по качеству к трансформеру: скорость, экономия ресурсов и перформанс в одном флаконе. Подробнее об экспериментах и результатах можно прочитать в статье, а вот тут лежит исходный код и доп.материалы.
Data Secrets
15.08.2024 12:27
Кстати, вместе с новым Grok 2 премиум юзерам в X доступна та самая новая громкая FLUX.1. Black Forest Lab неясно, на каких условиях предоставил свою модель для пользования бывшему твиттеру и, говорят, там она без цензуры. UPD: вряд ли совсем без цензуры, на что-то все-таки ругается. Тем не менее, пользователям уже удалось нагенерировать кучу всего сомнительного с политиками и прочим.