27 февраля, 17:17
Яндекс предоставляет датасет YAMBDa, ускоряющий обучение ИИ на 60 раз


ТЕХНО: Яндекс про технологии
Опенсорс Яндекса помогает улучшать ИИ Год назад мы рассказывали про YaMBDa огромный датасет который ученые из Яндекса выложили в открытый доступ чтобы помочь другим исследователям Это сработало YaMBDa использовали исследователи из Амстердамского университета чтобы протестировать свою усовершенствованную рекомендательную модель SEATER для онлайн сервисов Они придумали метод ускоряющий ее работу и протестировали его на разных наборах данных например книжных рекомендациях Amazon Но на небольших датасетах выигрыш по времени был незначительным зато с YaMBDa оказался заметным подготовка данных и обучение модели ускорились в 60 раз Датасет Яндекса помог в полной мере оценить эффективность новых алгоритмов в больших системах Подписывайтесь techno yandex


Искусственный интеллект. Высокие технологии
Тестирование на российском датасете показало рекордное ускорение обучения ИИ рекомендаций почти в 60 раз Европейские ученые нашли способ радикально ускорить обучение рекомендательных моделей без потери качества Ключевую роль в проверке новых алгоритмов сыграл открытый датасет Yambda опубликованный Яндексом в 2025 году Он содержит почти 5 млрд обезличенных событий из Яндекс Музыки это один из крупнейших публичных наборов данных такого типа Что сделали исследователи улучшили подготовительный этап работы модели SEATER ускорили этап подготовки данных главный bottleneck обучения добились максимального эффекта именно на больших массивах Результаты тестов быстрый метод ускорение с 82 минут до 83 секунд х60 комбинированный ускорение х15 рост точности превосходство над SASRec BERT4Rec и GRU4Rec на 13 17 Фактически эксперимент показал генеративные рекомендательные системы становятся практичными на реально больших каталогах и именно открытые индустриальные датасеты начинают играть роль ускорителя научных прорывов


Data Secrets
Исследователи из Амстердама ускорили обучение ИИ рекомендаций в 60 раз Проверить эффективность новых подходов помогло тестирование на российском датасете Yambda Они предложили два новых метода один из которых рекордно ускоряет обучение модели SEATER Это одна из наиболее сильных современных систем рекомендаций она используется для подбора товаров музыки и другого контента в онлайн сервисах До этого момента главной проблемой SEATER была скорость Перед обучением модель сначала должна организовать все товары или треки в умный иерархический каталог и на больших масштабах этот этап занимал до 20 всего трейна В реальных продуктах это делало почти невозможным частое обновление рекомендаций которого требуют очень многие сервисы Теперь же благодаря оптимизации алгоритма время подготовки данных на тестах сократилось с 82 минут до 83 секунд Это настоящий прорыв потому что метод фактически наконец открывает SEATER путь в реальный продакшн Что самое интересное решающую роль в работе сыграл датасет Яндекса Yambda Авторы сами отмечают что результаты были достигнуты во многом за счет тестирования именно на нем Почему Yambda Дело в том что этот датасет один из крупнейших в своем роде Там почти 5 миллиардов обезличенных событий из Яндекс Музыки детали вот здесь Редкие компании согласны делиться таким объемом данных но только на таком масштабе исследователям удалось реально оценить выигрыш во времени который будет наблюдаться на практике Вот почему подобные датасеты настолько важны они дают доступ к открытиям Яндекс открыв Yambda одним из первых устранил разрыв между академией и крупномасштабными промышленными данными и вот результат Статья голландцев весь код выложили в опенсорс
Похожие новости



+6



+4














+1

Обсуждение поддержки бизнеса и новые инициативы на ПМЭФ
Экономика
7 часов назад


+6
Российские продажи умных колонок достигли 1 млн единиц в I квартале 2026 года
Экономика
1 день назад


+4
OpenAI запускает рекламную платформу ChatGPT с новыми возможностями для бизнеса
Технологии
1 день назад



56 российских компаний переходят на унифицированные коммуникационные платформы для цифровой трансформации
Технологии
1 день назад



Anthropic запускает режим Сновидений для самообучения ИИ агентов
Технологии
1 день назад


OpenAI представила новые голосовые модели для улучшения диалогов и перевода в реальном времени
Технологии
19 часов назад


+1