26 сентября, 15:15
Т Технологии представили крупнейший кросс-доменный датасет для рекомендательных систем в e-commerce
Про tech и этих
По данным McKinsey компании активно использующие data driven подход принимают решения в 5 раз быстрее и в 3 раза эффективнее своих конкурентов А IDC прогнозирует что к 2025 году объем данных генерируемых пользователями превысит 180 зеттабайт Но доступ к этим данным по прежнему привилегия немногих Особенно когда речь идет о репрезентативных чистых и кросс доменных выборках для реального бизнеса И вот сегодня Т Технологии выложили в открытый доступ один из самых масштабных датасетов в мире для рекомендательных систем в e commerce T ECD В нем 44 миллиона уникальных пользователей 135 миллиардов взаимодействий и 30 миллионов товаров Там обезличенные данные из экосистемных сервисов Т Банка о транзакциях чеках отзывах взаимодействиях с рекомендациями активациях кэшбэков и спецпредложений все анонимизировано но связано между собой ключами пользователей и товаров Глубина данных достигает 3 5 лет Фактически это теперь первый в мире датасет по объему связанных между собой данных Лицензия свободная можно брать и использовать для бизнеса если знаете как Читайте Про tech и этих
Хайтек
Т Технологии открыли T ECD крупнейший кросс доменный датасет для рекомендательных систем 44 млн пользователей 30 млн товаров и 135 млрд взаимодействий теперь доступны исследователям на Hugging Face
Data Secrets
Новый датасет T ECD для екома Т выкатили не просто датасет а крупнейший кросс доменный набор для развития рексистем Основной T ECD более 135 млрд взаимодействий данные на основе 44 млн пользователей 30 млн товаров и 1 2 млн брендов Сборка данных глубиной от 1 до 3 5 лет доступны краткосрочные и долгосрочные пользовательские истории Домены Marketplace Retail Payments Offers и Reviews Рекомендательные задачи подходит для next item next basket session based топ N и других Версии полный датасет и T ECD Small на 5 млрд событий а также облегчённый набор на 1 млрд взаимодействий для быстрых экспериментов Почти все доступные датасеты для исследований моно доменные и маленькие а Т ECD первый по настоящему кросс доменный датасет такого масштаба Он универсален можно использовать как целиком так и по доменам а еще подходит для разных подходов от базовой коллаборативной фильтрации до графовых рекомендаций Всё это уже доступно на Hugging Face под Apache 2 0
Источники
Похожие новости +4 +7 +8 +2
Доля контрафактных деталей для ИТ-оборудования в России достигла 18,2% в 2025 году
Экономика
1 день назадКонференция AI2Business и прием докладов на Saint HighLoad 2026: внедрение ИИ в бизнес и разработку
Технологии
1 день назадСотрудники крупных компаний используют ИИ для накрутки внутренних метрик
Технологии
20 часов назадЦифровизация малых закупок: новые требования и поддержка отечественных производителей
Общество
1 день назадМинстрой предлагает использовать ИИ для контроля строительства 50 многоквартирных домов к 2030 году
Общество
1 день назадРост контрафактных комплектующих для зарубежного оборудования в России
Экономика
1 день назад