data_secrets

Data Secrets

04.09.2024 06:02

CEO OpenAI Japan на презентации заявил, что следующий GPT будет в 100 раз мощнее предыдущего, и проговорился, что появится модель в этом году При этом предполагается, что мощи вырастут не за счет объема вычислительных ресурсов, а в основном благодаря улучшениям в архитектуре и эффективности обучения. Тадао Нагасаки также упомянул Orion, который недавно был в центре новостей. Он рассказал, что модель обучалась именно в прошедшем времени на 10к H100.

Открыть в Telegram → Открыть новость на сайте →

Data Secrets

02.09.2024 08:57

Новая китайская моделька Minimax video-01 для генерации видео просто поражает Для демо разработчики нагенерировали целый фильм. До этого приблизительное такое делали только с SORA и то было много вопросиков . В целом, выглядит очень мощно. Движения плавные и естественные, при этом не скованные: то есть это не немного ожившие картинки, а именно какой-то экшн. В стартап Minimax инвестируют китайские гиганты Alibaba и Tencent. До этого ресерчеры оттуда, кстати, разрабатывали свою LLM. Больше примеров генерации можно посмотреть тут, а потестить самостоятельно здесь.

Открыть в Telegram → Открыть новость на сайте →

Data Secrets

31.08.2024 05:37

Нет, это не парень в странном спортивном костюме. Это только что выпущенный робот гуманоид NEO Beta от лаборатории 1X. Сам он весит всего 30 кг, но поднять может до 20. Ходит со скоростью ~4км/час, а еще может бегать со скоростью до 12км/час. Батареи ему хватает на 2-4 часа. Предназначен главным образом для бытовых дел по дому и, судя по демо, для обнимашек с хозяйкой .

Открыть в Telegram → Открыть новость на сайте →

Data Secrets

26.08.2024 17:41

Тем временем Илон Маск выкладывает в Твиттере видео с того самого суперкластера Cortex, на котором обещает обучить «самый мощный ИИ в мире» АКА Grok-3. Кластер находится в штаб-квартире Tesla в Остине. Как вам?

Открыть в Telegram → Открыть новость на сайте →

Data Secrets

21.08.2024 07:14

Microsoft выпустили Phi 3.5 Всего релизнули три варианта модели: Phi 3.5 mini instruct. Всего 3.8В параметров, 128К контекста. Эта малышка обгоняет Llama 3.1 8B и Mistral 7B и приближается к Mistral NeMo 12B! Обучалась 10 дней на 3.4T токенов с использованием 512 штук видеокарт H100. Phi 3.5 MoE. Здесь 16x3.8B с двумя экспертами. Контекст также 128К. Эта обучалась уже подольше – 23 дня на 4.9Т токенов на том же кластере. Модель обгоняет Gemini flash! Phi 3.5 Vision instruct VLM . 4.2В. Обучалась на 500В токенов. И, приготовьтесь: по усредненным бенчмаркам эта модель оставляет позади всех кроме GPT-4o и Gemini 1.5 Pro и то с небольшим отрывом . Самый громкий и крутой релиз Microsoft за последнее время. Веса всех моделей лежат тут на HF. Будем ждать на Арене.

Открыть в Telegram → Открыть новость на сайте →

Data Secrets

20.08.2024 08:05

AMD собирается приобретать ZT Systems за почти $5 миллиардов Видимо, AMD надоело дышать в спину Nvidia и они решили что-то делать. ZT Systems – это компания, которая занимается дизайном вычислений и инфраструктуры для ИИ. Кстати, сейчас ZT Systems также тесно сотрудничает с Intel и Nvidia. То есть возможно, AMD не просто покупают ценную компанию, а еще и лишают конкурента важного партнерства

Открыть в Telegram → Открыть новость на сайте →

Data Secrets

19.08.2024 17:18

Окружен, но не сломлен: CEO графического редактора Procreate Джеймс Куда заявил, что никогда не будет внедрять ИИ ни в один из продуктов. «Я, бл дь, ненавижу ИИ. Мы тут ценим человеческое творчество». За 14 часов ролик собрал 3 млн просмотров и 16 тысяч репостов. Вот что бывает, когда ломаешь систему.

Открыть в Telegram → Открыть новость на сайте →

Data Secrets

17.08.2024 07:20

Новая линейка продуктов Apple возможно будет… руками робота Компания решила зайти на рынок домашних роботов. Говорят, проект разрабатывается уже два года, но в последнее время команда активизировалась. Теперь «несколько сотен» человек по слухам работают над рукой робота, к которой будет прикреплено нечто вроде iPad. Как это будет работать, пока неясно. Зато ясно, что, учитывая историю Apple с self-driving cars, с робототехникой у них тоже могут возникнуть трудности…

Открыть в Telegram → Открыть новость на сайте →

Data Secrets

16.08.2024 14:44

На ACL показали новую архитектуру быстрых языковых моделей Статью про новую архитектуру уже успели процитировать Принстонский университет и университет Карнеги-Меллона, а с 11 по 16 августа ребята из лаборатории T-Bank AI Research выступали с ней на ACL – главной NLP’шной конфе мира. Идея исследования: трансформеры крутые, но медленные, а линейные модели быстрые, но не очень крутые. Как найти между ними баланс? В T-Bank AI Research предложили взять модель Based, которая сочетает в себе обучаемое ядро для линейных трансформеров и короткие свертки, и немного подправить это самое ядро. Они добавили новые обучаемые параметры и упростили аттеншен. В итоге метрики подскочили, модель стала лучше работать с длинным контекстом и в среднем понимание взаимосвязей в тексте улучшилось на 10%. Получается, ребятам удалось взять линейную модель и приблизить ее по качеству к трансформеру: скорость, экономия ресурсов и перформанс в одном флаконе. Подробнее об экспериментах и результатах можно прочитать в статье, а вот тут лежит исходный код и доп.материалы.

Открыть в Telegram → Открыть новость на сайте →

Data Secrets

15.08.2024 12:27

Кстати, вместе с новым Grok 2 премиум юзерам в X доступна та самая новая громкая FLUX.1. Black Forest Lab неясно, на каких условиях предоставил свою модель для пользования бывшему твиттеру и, говорят, там она без цензуры. UPD: вряд ли совсем без цензуры, на что-то все-таки ругается. Тем не менее, пользователям уже удалось нагенерировать кучу всего сомнительного с политиками и прочим.

Открыть в Telegram → Открыть новость на сайте →

Информация об авторе

Последние сообщения автора