ai_newz

эйай ньюз

24.11.2024 19:08

На чатбот арене последние дни очень жарко Неделю назад Gemini-1114 заняла первое место на арене, обогнав все модели OpenAI. В среду OpenAI ответили более новой версией 4o, Artificial Analysis протестировали её, и выводы печальные - хоть рейтинг на арене и растёт, бенчи MATH и GPQA просели ниже результатов июльской 4o-mini. При этом, с просадкой по бенчам, более чем в два раза выросла скорость - с 80 до 180 токенов в секунду. Похоже, нам суют модель сильно поменьше за те же деньги. Вот вам ещё одно напоминание, что теперь и арене верить решительно нельзя - несколько компаний уже несколько месяцев активно занимаются тюном под арену только чтобы повысить ELO. Живая демонстрация закона Гудхарта в действии: «Когда мера становится целью, она перестает быть хорошей мерой». Кстати, жёсткий тюн под арену не сильно помог OpenAI - новая 4o продержалась в топе всего лишь чуть больше суток. В четверг вечером первое место заняла уже Gemini-Exp-1121. Под постом про набор интернов у меня спрашивали, чем лучше сейчас заняться в AI. Так вот, надеюсь, посмотрев на весь этот бардак с ареной, кто-то из подписчиков вдохновится темой оценки качества моделей и сможет предложить бенчи получше. Вообще объективная автоматическая оценка качества генеративных моделей будь-то текстовых или картиночных и видео - задача важная, но все еще не решенная.

Открыть в Telegram → Открыть новость на сайте →

эйай ньюз

22.11.2024 15:48

Amazon инвестирует ещё 4 миллиарда в Anthropic Слухи ходили уже какое-то время, я уже писал об этом раунде в начале ноября. И вот свершилось - Amazon всё таки удалось заставить Anthropic тренировать на своих чипах Trainium, что позволит довести эти чипы до ума, а там, глядишь, и кто-то их начнёт арендовать у амазона. Вообще поразительно как часто сейчас случаются такие многомиллиардные сделки - неделю назад xAI подняли ещё 5 миллиардов на дополнительные 100к GPU для их Colossus . Оценка компании за полгода удвоилась, до 50 миллиардов долларов, что в 500 раз больше её годовой выручки. А сейчас уже Databricks, по слухам, ищет 8 миллиардов по оценке в 61, причём, скорее всего, компания их найдёт. Инвестиций, даже в большие компании, столько, что я не знаю, есть ли смысл писать про каждую отдельно. Канал ведь не финансовый. А ведь есть ещё и рыбёшки поменьше...

Открыть в Telegram → Открыть новость на сайте →

эйай ньюз

20.11.2024 11:55

Новая модель GigaChat Max от Сбера Сбер выложил новую модель GigaChat Max. У нее заявлены увеличенная база знаний и улучшенная логика. Еще добавили Vision. Новый GigaChat эффективнее работает с текстом и пишет код. Дает более красивые и структурированные ответы, лучше решает комплексные и творческие задачи. А по бенчмаркам уступает лишь Llama-3.1 и GPT4o. Также GigaChat MAX хорошо показала себя при создании агентов. Ещё у них есть специальная Studio, позволяющая создавать агентов без специальных знаний.

Открыть в Telegram → Открыть новость на сайте →

эйай ньюз

11.11.2024 15:37

Google DeepMind релизнули веса и код AlphaFold 3 За предыдущую версию Демису Хассабису дали нобелевку, а эта, по заявлениям гугла, как минимум на 50% лучше. Раньше доступ был лишь через AlphaFold Server, с ограничением в 20 запросов в день. Код уже на гитхабе, а веса доступны по запросу, обещают одобрить или отклонить в течении 3 рабочих дней. Важно: лицензия некоммерческая и очень жёсткая, использование коммерческим организациям и в коммерческих целей запрещено. Также запрещено распространение весов и тренировка своих моделей на аутпутах AF3. Запускается на видяхах с 16 гигами, но с ограничением длины контекста в 1280. Лучше юзать как минимум A100 на 40 гигабайт. Всякие A6000 тоже в теории подходят, но авторы тестировали точность модели только на H100 и A100. А у нас есть кто-то кто пользуется AlphaFold в рабочей деятельности? Как вам? Github Курс по использованию AlphaFold

Открыть в Telegram → Открыть новость на сайте →

эйай ньюз

09.11.2024 10:22

Anthropic собирается привлечь ещё несколько миллиардов долларов инвестиций Инвестором снова должен выступить Amazon, который уже инвестировал в компанию 4 миллиарда долларов. Оценка в этом раунде инвестиций ожидается в районе 30-40 миллиардов долларов. Amazon явно понравились результаты инвестиций - AWS, главная дойная корова компании, показывает очень хороший рост во многом из-за продажи AI API. Плюс Amazon пихает Claude сейчас куда только возможно - от чатботов на сайтах и в приложениях, до их конкурента Github Copilot. А ещё планируемая интеграция в Alexa, по платной подписке. Загвоздка на этот раз в том, что Amazon хочет, чтобы Anthropic использовал Trainium - собственные чипы Amazon. Они их произвели в огромных количествах, но никто не хочет их использовать. Я даже не припомню ни одной статьи, где использовали бы Trainium. Anthropic в качестве клиента поможет отполировать софт до хорошего уровня, плюс сделает неплохую рекламу, если на них смогут натренировать какие-то передовые модели. Такие условия не новинка в индустрии — в прошлом году Intel провернула такой же трюк со Stability, предоставив им свои чипы Gaudi 2 вместе с инвестициями. Да и сами Anthropic как минимум использовали TPU для инференса после того, как Google в них инвестировал. С кнутом есть и пряник - ведутся переговоры о постройке Amazon кластера для обучения для Anthropic - вроде тех, что Microsoft строит для OpenAI, а X.AI и Meta для себя. Будут ли там Trainium или более традиционные чипы от Nvidia - непонятно. Понятно только одно – инфраструктурная гонка все еще набирает обороты, а клауд провайдеры снимают жирнющие сливки от огромного запроса на инференс и тренировку больших AI моделей.

Открыть в Telegram → Открыть новость на сайте →

эйай ньюз

06.11.2024 18:12

Physical Intelligence подняли $400M при оценке в $2 миллиарда. Чуваки планируют создать foundation model для роботов всех мастей. Чтобы вот воткнул софтинку в машину, а она резко адаптировалась и подстроилась под существующую механику. Похоже, нас ждут «мозги по API»! Но надеюсь, к тому времени научатся считать всё локально. Главными инвесторами стали Amazon, фонды Thrive и Lux Capital, ну и OpenAI — куда же без них. Стартап не совсем с голой жопой. Если не считать топовый состав ко-фаундеров, в который входят Mr. Hausman, в прошлом robotics scientist в Google; Sergey Levine, профессор в Беркли, преподаёт computer science, но сам дико угарает по обучению агентов и RL кстати, я лично с ним знаком, и вот ещё пост про воркшоп с его участием ; и Lachy Groom, бывший executive в Stripe сейчас все зарубежные подписки оплачиваются через него , так что бизнес он вести умеет. Чуваки недавно опубликовали пейпер, где представили свою первую модель pi0 они кстати процитировали нашу Movie Gen, кек . Научили две роборуки разным приколам типа складывания одежды и уборки. Всё это мы уже видели тут, тут и тут, ну а главные в этом 1X . Да и вообще, вот есть набор «сделай сам» для точно таких же механических рук — здесь вместе с тренировкой и записью датасета . Но это только начало, у Physical Intelligence цель в другом. Не просто научить машину в какой-то конкретной конфигурации выполнять команды, а научить вообще всех ботов всему, в том числе саморепродукции и захвату человечества. По факту, есть закос на general purpose модель, и вот в этом и заключается наибольшая проблема - совсем непонятно смогут ли они перегнать general purpose модели от Anthropic или тех же OpenAI, которые всё лучше и лучше справляются с контролем роботов. Источник Пейпер

Открыть в Telegram → Открыть новость на сайте →

эйай ньюз

06.11.2024 14:50

Об AI в образовании: универы по всему миру все активнее используют нейронки Яндекс Образование и ВШЭ выпустили карту университетов, которые решили внедрить ИИ в обучение. Получилась кейсотека с примерами того, для каких задач студенты и преподы используют ИИ. Проект поможет вузам определиться с наиболее подходящими стратегиями интеграции нейросетей. Собрал несколько любопытных примеров. #промо

Открыть в Telegram → Открыть новость на сайте →

эйай ньюз

04.11.2024 22:03

Anthropic наконец-то релизнули API Claude 3.5 Haiku Результаты SWE Bench выше чем у июльского Sonnet 3.5. Cutoff данных тренировки - июль 2024. Этого мало чтобы перекрыть минусы - цена выросла в 4 раза по сравнению с 3.0, а изображения в качестве инпута модель на старте просто не поддерживает. Кажется Anthropic, которые изначально и начали гонку дешёвых моделей, решили просто заняться рекламой GPT 4o-mini и Gemini Flash. Я совсем не понимаю зачем использовать эту модель, а что думаете вы?

Открыть в Telegram → Открыть новость на сайте →

эйай ньюз

02.11.2024 15:49

Тут за последние пару дней было несколько новых фич от LLM провайдеров Легко было что-то упустить, поэтому я собрал всё в один пост. OpenAI выпустили в публичный доступ SearchGPT - всё ещё отстаёт от Perplexity по качеству, зато довольно быстрый, да и обычные пользователи про Perplexity и не слышали. Но всё ещё иногда начинает искать в интернете, когда это совсем не нужно если кто-то знает, как можно отключить эту функцию, напишите, пожалуйста, в комментариях . Почти одновременно с SearchGPT они выпустили возможность дистиллировать модели. То есть сначала можно отвечать моделью вроде o1 либо 4o, а потом дистиллировать их ответы для вашего конкретного юзкейса в модель поменьше, например 4o-mini. Чтобы вы могли оценить, насколько хорошо это работает, добавили возможность создавать собственные методы оценки моделей. Цены соответствуют стандартным для файнтюнинга. Ещё случайно сделали доступной полноценную o1 на пару часов - видимо релиз близко. В добавок к возможности загружать файлы и картинки, она заметно умнее o1-preview - та заметно проседает в математике и кодинге и отстаёт в этом даже от o1-mini. Кстати не первый раз случайно дают не те права доступа к модели, но раньше это было с внутренними моделями для тестирования. Интересно, GPT-5 так утечёт? Anthropic выпустили приложение Claude для Mac и Windows — в принципе, похоже на мобильное, возможно, готовятся к релизу функции computer use для подписчиков. Ну и глобальный шортакт для вызова клода удобный. Кроме того, теперь Claude может понимать изображения в PDF. Однако контекст для обычных пользователей всё ещё ограничен 200к токенами против 500к у корпоративных пользователей , поэтому пользоваться, не выходя за пределы контекста, сложно. Google добавили Grounding для Gemini в AI Studio и API. Теперь запросы к LLM можно привязывать к результатам поиска. Стоимость — $35 за тысячу запросов. Чем из этого вы уже пользовались? Как вам?

Открыть в Telegram → Открыть новость на сайте →

эйай ньюз

02.11.2024 13:30

На днях стали известны итоги прошедшего ML Prize. Заявлено всего было 160 работ, из которых выделили 14 самых значимых. Победители получили денежную премию в зависимости от номинации и ещё гранты в Yandex Cloud для расчетов + остальные плюшки. Пейперы worth to check out, особенно если сами планируете двигать ML. Отобрал неплохие бумаги, вот парочка: Вот пытаются сделать децентрализованную многоагентную навигацию для робо-роя, исследование на dissercat. Кроме всяких футуристичных штук, полезно в складской логистике. Ещё разрабатывают методы обучения генеративных моделей на основе теории оптимального транспорта. Планируют применять для проектирования как ни странно транспорта, а также материалов и лекарств. Ещё об оптимизации децентрализованных систем и асинхронных вычислений. Было еще много всего про многоагентные системы и оптимизации. Ну и здесь стоит добавить, что премия выдавалась не за конкретные пейперы, а по категориям. Подробнее здесь

Открыть в Telegram → Открыть новость на сайте →

Информация об авторе

Последние сообщения автора