
Forbes Russia
«Яндекс» разработал и выложил в открытый доступ датасет для развития рекомендательных систем. С помощью Yambda исследователи и вузы со всего мира смогут тестировать и улучшать рекомендательные алгоритмы, отметили в «Яндексе»
Технологии6 дней назад


ТЕХНО: Яндекс про технологии
Учёные Яндекса разработали и выложили в опенсорс Yambda — один из крупнейших в мире датасетов для развития рекомендательных систем. Рассказываем, что это такое и для чего нужно. Что это за датасет? В Yambda YAndex Music Billion-interactions DAtaset вошли пять миллиардов обезличенных — не содержащих никакой персональной информации — событий. Все они связаны с действиями на Яндекс Музыке и в «Моей волне»: прослушивания, лайки, дизлайки и некоторые характеристики треков. Зачем нужны такие датасеты? Учёные с их помощью могут исследовать и улучшать рекомендательные системы — не только стриминговые, но и любые другие, так как в их основе лежат общие алгоритмы. А разработчики из других компаний смогут использовать Yambda для оценки эффективности своих собственных рекомендательных алгоритмов. Всё вместе это позволит лучше понимать поведение пользователей и делать рекомендации точнее. Примерно так же было с визуальным датасетом ImageNet, который дал мощный толчок развитию компьютерного зрения. Раньше таких данных в опенсорсе не было? Коммерческие компании редко публикуют свои датасеты из-за их бизнес-ценности, а то, что можно найти в опенсорсе, — устарело или имеет небольшой объём. Например, популярный датасет Spotify Million Playlists содержит всего миллион плейлистов — гораздо меньше, чем нужно для обучения современных алгоритмов. Чем датасет полезен для вузов и лабораторий? У вузов и лабораторий нет своих коммерческих продуктов, а значит, и пользовательских данных. Открытый доступ к качественным большим данным открывает новые возможности для научных исследований и привлекает к области внимание молодых учёных, заинтересованных в применении машинного обучения для решения актуальных задач. Подписывайтесь
Технологии6 дней назад

1337
Исследователи Яндекса дропнули в опенсорс многомиллиардный датасет на базе Яндекс Музыки. Это один из крупнейших в мире датасетов для развития рекомендательных систем. Он включает обезличенные прослушивания, лайки и дизлайки, а также числовые характеристики треков из стриминга с самыми точными рекомендациями по данным РОМИР. Разработчики, исследователи и вузы могут выбрать одну из трех версий Yambda: от 50 млн до 5 миллиардов данных — в зависимости от задач и доступных ресурсов. Их можно использовать для оценки качества не только музыкальных, но и любых других рекомендательных алгоритмов. 1337
Технологии6 дней назад

Physics.Math.Code
Ученые Яндекса разработали и выложили в опенсорс Yambda — один из крупнейших в мире датасетов для рекомендательных систем на 5 миллиардов данных. Датасет предназначен для развития рекомендательных систем и откроет новые возможности для научного сообщества и вузов. В основном, в них работают на упрощенных датасетах — в общий доступ редко попадают качественные и объемные данные. Поэтому ученые, исследователи и вузы часто оказываются на шаг позади, когда очередь доходит до исследований рекомендательных алгоритмов. Yambda позволит тестировать и улучшать их с помощью разнообразных обезличенных данных, собранных на основе Яндекс Музыки: Датасет представлен в разных размерах: 5 млрд / 500 млн / 50 млн событий — чтобы разработчики и исследователи могли выбрать тот, который больше подходит их задачам и доступным вычислительным ресурсам. Публикация актуальных агрегированных данных в открытом доступе даст возможность российской науке активнее развиваться в области рекомендательных систем и привлечет молодых специалистов, заинтересованных в машинном обучении. Physics.Math.Code //
Технологии6 дней назад


Техномотель
Кажется, у разрабов, работающих с ИИ, сегодня праздник: исследователи Яндекса выкатили в опенсорс один из самых крупных в мире датасетов для исследований в области рекомендательных систем. Он получил название Yambda. На выбор доступны сразу 3 варианта: 5 млрд параметров, а также 500 млн и 50 млн. Каждый содержит обезличенные данные о пользователях и некоторые числовые характеристики треков в Яндекс Музыке — по данным РОМИР, именно этот сервис пользователи стримингов считают самым точным по части рекомендаций. Датасет поможет тестировать рекомендательные системы в разных сферах и закрывает критически важный разрыв между наукой и индустрией.
Технологии6 дней назад



Грокс
Ученые Яндекса разработали и выложили в опенсорс Yambda — один из крупнейших в мире датасетов для развития рекомендательных систем, который позволит устранить разрыв между академическими исследованиями и индустриальными потребностями. Этот разрыв обусловлен как раз тем, что для развития таких алгоритмов необходимы открытые и качественные данные, а большинство компаний ими просто не делятся. Yambda — пример того, как коммерческий сервис в данном случае Яндекс Музыка становится источником данных для научного сообщества. Датасет обезличен, масштабен до 5 миллиардов событий и при этом сделан так, чтобы его можно было использовать в различных исследованиях — в разных размерах под имеющееся количество GPU и кодом для оценки замеров. Компания не первый раз вкладывается в развитие опенсорс-сообщества и уже является лидером в выпуске открытых технологий. Такой подход — важный вклад в развитие отечественной научной экосистемы: доступ к современным решениям бизнеса привлекает к исследованиям рекомендательных систем молодых специалистов, что ведет к прогрессу всей области.
Технологии6 дней назад

СИГНАЛ
Ученые Яндекса разработали и выложили в опенсорс Yambda: один из крупнейших в мире датасетов для развития рекомендательных систем. В его основе — обезличенные данные Яндекс Музыки, которые можно использовать для оценки качества любых рекомендательных систем. Полная версия содержит 5 миллиардов данных, уменьшенные по 500 миллионов и 50 миллионов. Научному сообществу и вузам почти недоступны большие и современные датасеты для развития рекомендательных систем — платформы их не публикуют. Yambda позволит улучшать алгоритмы с помощью актуальных и качественных данных и сделает область доступнее и актуальнее для молодых ученых, которым интересно машинное обучение для решения актуальных задач.
Технологии6 дней назад


Yandex for Developers
Исследователи Яндекса выложили в опенсорс один из самых больших в мире датасетов для RecSys Речь про YaMBDa — Yandex Music Billion-interactions Dataset. Он создан на основе обезличенных данных Яндекс Музыки, крупнейшего подписного музыкального сервиса в России, а также «Моей волны», главного рекомендательного продукта сервиса. Датасет содержит обезличенные взаимодействия 1 миллиона пользователей Яндекс Музыки с 9 миллионами треков в течение 10 месяцев. Всего это 5 миллиардов событий. Мы собрали в датасете прослушивания, лайки, дизлайки, а также векторные характеристики треков. Делимся этим датасетом, чтобы помочь исследователям и вузам. Дело в том, что современные алгоритмы требуют для обучения куда больше данных, чем можно найти в опенсорсе. Такие датасеты есть у коммерческих компаний, но их редко публикуют из-за их бизнес-ценности. Поэтому исследователям приходится использовать устаревшие и небольшие наборы данных. Обученные на них модели часто теряют эффективность при масштабировании. YaMBDa позволит учёным и разработчикам совершенствовать алгоритмы на больших и реальных данных. Это позволит глубже понимать поведение пользователей и повышать точность рекомендаций. Датасет будет полезен не только для стриминговых сервисов. Это универсальный инструмент для оценки качества новых подходов и алгоритмов в различных областях, которые используют рекомендательные системы. Подробности читайте в статье Подписывайтесь:
Технологии6 дней назад

РР - все новости
Компания «Яндекс» представила Yambda — один из крупнейших в мире открытых датасетов для разработки рекомендательных систем. Доступен в трех версиях, он включает данные о прослушиваниях, лайках и дизлайках из «Яндекс Музыки». Это позволит исследователям улучшать алгоритмы рекомендаций.
Технологии6 дней назад

Стать специалистом по машинному обучению
Исследователи Яндекса разработали и выложили в опенсорс один из крупнейших в мире датасетов в области рекомендательных систем YaMBDa YAndex Music Billion-interactions DAtaset , в котором содержится около 5 миллиардов событий. Я помню, когда занимался изучением рекомендательных систем, какие-то хорошие большие датасеты было найти сложно, все открытые были уже довольно заезженные и устаревшие. А мы ведь знаем, что наличие хороших данных — это чуть ли не главная составляющая хорошей модели. Такой шаг от крупной коммерческой компании — это хорошая помощь исследователям, а, возможно, и небольшим сервисам, которым не придётся сначала долгие годы собирать свою собственную статистику, чтобы только затем приступить к обучению своих моделей. Можно экспериментировать на большом и качественном датасете, корректируя пайплайны под свою специфику. Данные, разумеется, обезличенные и узнать какую музыку слушает ваша симпатичная коллега из него не выйдет, но, вот, хорошенько проанализировать и учесть это при разработке каких-то своих сервисов получится из-за высокого качества датасета. В нём содержатся прослушивания, лайки, дизлайки, а также некоторые характеристики треков. Причём 5 миллиардов, конечно, может оказаться довольно большим числом для тех, у кого ресурсы ограниченные, поэтому у датасета есть три версии — самая маленькая на 50 миллионов событий, средняя на 500 и, сам по себе, полный набор. У всех событий есть временные метки, то есть можно и тренды смотреть, и сезонность, и другие зависимости во времени. Это как хорошая документация к каждому действию, чего не хватает многим подобным датасетам. Аж, захотелось РекСисом позаниматься
Технологии6 дней назад

Похожие новости



+18



+3



+7



+10



+3



+9

«Яндекс» интегрирует ИИ-агента в голосового помощника «Алиса»
Технологии
1 день назад




Сбер представил гайд по созданию AI-агентов на конференции ЦИПР
Технологии
1 день назад




Алексей Паламарчук о внедрении ИИ в промышленность и социальные проекты на ЦИПР-2025
Технологии
1 день назад




МТС Web Services запускает ИИ-агента MWS-Agent для оптимизации бизнес-процессов
Технологии
1 день назад




Совет Федерации предложил использовать ИИ для предотвращения картельных сговоров
Технологии
1 день назад




Михаил Мишустин обсудил развитие электронной промышленности и импортозамещение в Сарове
Общество
1 день назад


