27 августа, 12:22

VK представил обширный датасет для рекомендательных систем с 40 миллиардами взаимодействий

Подготовлено редакцией Tek.fmДайджест Telegram-каналов

VK выложил масштабный датасет для рекомендательных систем Исследователи VK выложили жирный датасет для рекомендательных систем VK LSVD Large Short Video Dataset 40 миллиардов обезличенных взаимодействий 10 млн пользователей 20 млн единиц контента VK LSVD поможет инженерам и ученым проверять гипотезы обучать и тестировать модели на качественном массиве данных Датасет позволяет гибко формировать выборку что дает возможность подгонять его под задачи и ресурсы конкретного исследования Это сильный шаг к развитию открытой исследовательской среды и индустрии в целом Техно Трендс

Технологии253 дня назад

VK выложила в открытый доступ датасет VK LSVD Large Short Video Dataset С его помощью инженеры и ученые смогут развивать и совершенствовать рекомендательные алгоритмы чтобы делать сервисы и продукты более персонализированными Датасет включает 40 миллиардов обезличенных уникальных взаимодействий 10 миллионов пользователей с 20 миллионами коротких видео за январь июнь 2025 Для каждого ролика предоставлен эмбеддинг а для каждого пользователя социально демографические характеристики Ученые Центра цифровой медицины Сеченовского университета разработали нейросеть для выявления болезни Паркинсона Модель распознает частотные аномалии характерные для этой патологии по результатам электроэнцефалографии ЭЭГ с точностью до 97 На основе нейросети исследователи планируют создать цифровой сервис для ранней диагностики болезни Паркинсона который позволит быстро и точно ставить предварительный диагноз и назначать исследования для его подтверждения В Лаборатории языковой конвергенции НИУ ВШЭ Санкт Петербург создали эмоциональный словарь для обучения искусственного интеллекта Ученые создали источник данных об эмоциональной речи для обучения больших языковых моделей детектированию эмоций на основе признаков из разных каналов коммуникации Датасет включает 909 видеофрагментов общей продолжительностью 173 минуты

Цифровая экономика

VK выложила в открытый доступ датасет VK LSVD Large Short Video Dataset С его помощью инженеры и ученые смогут развивать и совершенствовать рекомендательные алгоритмы чтобы делать сервисы и продукты более персонализированными Датасет включает 40 миллиардов обезличенных уникальных взаимодействий 10 миллионов пользователей с 20 миллионами коротких видео за январь июнь 2025 Для каждого ролика предоставлен эмбеддинг а для каждого пользователя социально демографические характеристики Ученые Центра цифровой медицины Сеченовского университета разработали нейросеть для выявления болезни Паркинсона Модель распознает частотные аномалии характерные для этой патологии по результатам электроэнцефалографии ЭЭГ с точностью до 97 На основе нейросети исследователи планируют создать цифровой сервис для ранней диагностики болезни Паркинсона который позволит быстро и точно ставить предварительный диагноз и назначать исследования для его подтверждения В Лаборатории языковой конвергенции НИУ ВШЭ Санкт Петербург создали эмоциональный словарь для обучения искусственного интеллекта Ученые создали источник данных об эмоциональной речи для обучения больших языковых моделей детектированию эмоций на основе признаков из разных каналов коммуникации Датасет включает 909 видеофрагментов общей продолжительностью 173 минуты

Технологии253 дня назад

Neural Networks | Нейронные сети

Исследователи AI VK выложили в открытый доступ VK LSVD датасет коротких видео для рекомендательных систем VK LSVD содержит 40 млрд обезличенных взаимодействий 10 млн пользователей с 20 млн коротких видео за январь июнь 2025 Включены лайки дизлайки шеры длительность просмотров и контекст воспроизведения Датасет даёт возможность формировать объем выборки под задачи конкретного исследования и доступные ресурсы команд Это делает VK LSVD инструментом с помощью которого можно проверять гипотезы и строить более точные рекомендательные модели на актуальных данных Доступен на Hugging Face

Технологии251 день назад

Machine learning Interview

В открытом доступе появился VK LSVD масштабный датасет коротких видео для рекомендательных систем созданный командой AI VK В отличие от существующих наборов данных VK LSVD собрали 40 млрд обезличенных взаимодействий 10 млн пользователей с 20 млн коротких видео за период январь июнь 2025 В него входят лайки дизлайки шеры длительность просмотра и контекст воспроизведения всё в формате числовых идентификаторов для гарантии конфиденциальности пользователей Датасет позволяет гибко настраивать выборки определять их объём формировать случайным образом или с учётом популярности контента адаптируя данные под доступные вычислительные мощности Это делает VK LSVD ценным инструментом для проверки гипотез и построения более точных моделей рекомендаций на реальных актуальных данных Такой ресурс открывает новые возможности для исследователей и инженеров закладывая основу для следующего уровня развития рекомендательных технологий

Технологии251 день назад

Машинное обучение RU

AI VK выпустила VK LSDV один из самых больших датасетов коротких видео для всех кто работает с рекомендательными системами Он доступен на Hugging Face Что внутри 40 млрд обезличенных взаимодействий 20 млн единиц контента 10 млн пользователей период январь июнь 2025 данные лайки дизлайки шеры время просмотра реакции контекст воспроизведения Вы можете Гибко настраивать выборку по объёму Определять способ отбора случайный или по популярности Подгонять датасет под доступные вычислительные ресурсы Главное Это один из крупнейших открытых датасетов коротких видео полезный для обучения и тестирования систем рекомендаций Дает возможность работать с реальными данными VK LSDV вклад в создание исследовательской среды для тестирования гипотез и развития алгоритмов персонализации Такой ресурс открывает новые горизонты для инженеров и исследователей по всему миру и поднимает планку в развитии рекомендательных технологий

Технологии251 день назад

VK открыл гигантский датасет VK LSVD для развития рекомендательных систем он включает 40 миллиардов обезличенных взаимодействий с 20 миллионами единиц контента Датасет собран на базе коротких видео Для рекомендательных систем уникально ведь такой контент не может потребляться фоном в отличие от музыки или длинных видео Он гибко настраивается под задачи обеспечивая безопасное и персонализированное обучение моделей exploitex

Эксплойт

VK открыл гигантский датасет VK LSVD для развития рекомендательных систем он включает 40 миллиардов обезличенных взаимодействий с 20 миллионами единиц контента Датасет собран на базе коротких видео Для рекомендательных систем уникально ведь такой контент не может потребляться фоном в отличие от музыки или длинных видео Он гибко настраивается под задачи обеспечивая безопасное и персонализированное обучение моделей exploitex

Технологии253 дня назад

VK выложила гигантский датасет для развития рекомендательных систем он состоит из 40 миллиардов обезличенных и зашифрованных пользовательских взаимодействий с 20 млн единиц контента Это поможет обычным исследователям в области машинного обучения строить и тестировать модели проверять гипотезы на настоящих пользовательских паттернах всё это ускорит совершенствование рекомендательных технологий А что ещё случилось

Лентач

VK выложила гигантский датасет для развития рекомендательных систем он состоит из 40 миллиардов обезличенных и зашифрованных пользовательских взаимодействий с 20 млн единиц контента Это поможет обычным исследователям в области машинного обучения строить и тестировать модели проверять гипотезы на настоящих пользовательских паттернах всё это ускорит совершенствование рекомендательных технологий А что ещё случилось

Технологии253 дня назад

VK выложил датасет для развития рекомендательных систем Собран на базе коротких видео huggingface co datasets deepvk VK LSVD

айтишка. 🫵

VK выложил датасет для развития рекомендательных систем Собран на базе коротких видео huggingface co datasets deepvk VK LSVD

Технологии252 дня назад

VK выпустила датасет VK LSVD Large Short Video Dataset для развития рекомендательных систем Исследователи AI VK открыли доступ к масштабному датасету VK LSVD для развития рекомендательных систем В нём собраны 40 млрд обезличенных взаимодействий пользователей с короткими видео январь июнь 2025 20 млн роликов с метаданными и эмбеддингами а также данные о 10 млн пользователей с соцдем признаками Формат коротких видео удобен для исследований много фидбека за сессию чёткая атрибуция реакций и высокая корреляция оффлайн оценок с онлайном VK LSVD позволяет гибко формировать выборку под конкретные задачи и доступные мощности что делает его полезным как для академических исследований так и для индустриальных экспериментов Датасет уже доступен по ссылке а скоро на его базе пройдёт открытое соревнование для инженеров Gemini 2 5 Flash Image новая модель Google для создания и редактирования изображений eng ru Gemini 2 5 Flash Image появившаяся под промо именем Nano Banana заняла первые места на LMArena в ряде категорий включая общую производительность креативность инфографику и работу с персонажами и объектами Модель принимает на вход как текст так и изображения можно подать несколько картинок Пользователи отмечают хорошую работу модели со шрифтами и качественное комбинирование нескольких изображений в одно Модель доступна через Gemini API и Google AI Studio а также бесплатно через Gemini App Бенчмарк MPC Universe от Salesforce для тестирования навыков работы LLM с MCP серверами eng Компания Salesforce разработала бенчмарк на котором можно протестировать насколько LLM хорошо справляется с задачами требующими использования MCP Авторы собрали 231 задачу из 6 разных доменов навигация по картам управление репозиториями с кодом финансовый анализ 3D проектирование автоматизация браузера и веб поиск Часть задач требует многократного обращения к MCP серверу т е модель должна хорошо уметь работать с длинным контекстом Результаты показали что GPT 5 лидирует с большим отрывом но справляется при этом менее чем с 50 задач Лучшей опенсорсной моделью оказалась GLM 4 5 ZenFlow новый движок для обучения LLM без простоев GPU от PyTorch eng ZenFlow это новое расширение традиционного фреймворка DeepSeed Решение сокращает время простоя GPU при обучении LLM на 85 разделяя градиенты по важности приоритетные обновляются сразу на GPU остальные асинхронно на CPU пока графический процессор занят градиенты из текущей или предыдущей итерации передаются на CPU по выделенному потоку PCIe Такой подход с полным перекрытием всех операций ускоряет обучение в среднем в 5 раз по сравнению с DeepSpeed ZeRO Offload Решение доступно на GitHub Grok Code Fast 1 быстрая и экономичная модель для генерации кода от xAI eng ru xAI выпустил новую модель Grok Code Fast 1 для кодирования Модель на 314 миллиардов параметров поддерживает контекст до 256К токенов и может генерировать до 92 токенов в секунду Разработчики позиционируют модель как инструмент решения базовых задач разработки она отлично подойдет например для создания веб приложений и быстрой разработки прототипов Стоимость модели составляет всего 0 2 за 1 млн входных токенов и 1 5 за 1 млн выходных Alibaba анонсировал платформу Qoder сервис для написания кода при помощи ИИ eng ru В Qoder доступно два режима работы Agent Mode и Quest Mode В Agent Mode платформа Qoder выступает в роли помощника по написанию кода что подойдет для базовых задач и быстрых правок В режиме Quest Mode помощник Qoder автономно работает с кодовыми базами по развёрнутому техзаданию Qoder составляет план работы отмечает выполненные задачи в to do листе автоматизирует тестирование и валидацию может составить документацию по уже существующим проектам Система поддерживает MCP Новый инструмент пополняет ряды IDE с ИИ и конкурирует с другими системами такими как Cursor и Windsurf На период беты Qoder доступен полностью бесплатно дайджест aivk

AI VK Hub

VK выпустила датасет VK LSVD Large Short Video Dataset для развития рекомендательных систем Исследователи AI VK открыли доступ к масштабному датасету VK LSVD для развития рекомендательных систем В нём собраны 40 млрд обезличенных взаимодействий пользователей с короткими видео январь июнь 2025 20 млн роликов с метаданными и эмбеддингами а также данные о 10 млн пользователей с соцдем признаками Формат коротких видео удобен для исследований много фидбека за сессию чёткая атрибуция реакций и высокая корреляция оффлайн оценок с онлайном VK LSVD позволяет гибко формировать выборку под конкретные задачи и доступные мощности что делает его полезным как для академических исследований так и для индустриальных экспериментов Датасет уже доступен по ссылке а скоро на его базе пройдёт открытое соревнование для инженеров Gemini 2 5 Flash Image новая модель Google для создания и редактирования изображений eng ru Gemini 2 5 Flash Image появившаяся под промо именем Nano Banana заняла первые места на LMArena в ряде категорий включая общую производительность креативность инфографику и работу с персонажами и объектами Модель принимает на вход как текст так и изображения можно подать несколько картинок Пользователи отмечают хорошую работу модели со шрифтами и качественное комбинирование нескольких изображений в одно Модель доступна через Gemini API и Google AI Studio а также бесплатно через Gemini App Бенчмарк MPC Universe от Salesforce для тестирования навыков работы LLM с MCP серверами eng Компания Salesforce разработала бенчмарк на котором можно протестировать насколько LLM хорошо справляется с задачами требующими использования MCP Авторы собрали 231 задачу из 6 разных доменов навигация по картам управление репозиториями с кодом финансовый анализ 3D проектирование автоматизация браузера и веб поиск Часть задач требует многократного обращения к MCP серверу т е модель должна хорошо уметь работать с длинным контекстом Результаты показали что GPT 5 лидирует с большим отрывом но справляется при этом менее чем с 50 задач Лучшей опенсорсной моделью оказалась GLM 4 5 ZenFlow новый движок для обучения LLM без простоев GPU от PyTorch eng ZenFlow это новое расширение традиционного фреймворка DeepSeed Решение сокращает время простоя GPU при обучении LLM на 85 разделяя градиенты по важности приоритетные обновляются сразу на GPU остальные асинхронно на CPU пока графический процессор занят градиенты из текущей или предыдущей итерации передаются на CPU по выделенному потоку PCIe Такой подход с полным перекрытием всех операций ускоряет обучение в среднем в 5 раз по сравнению с DeepSpeed ZeRO Offload Решение доступно на GitHub Grok Code Fast 1 быстрая и экономичная модель для генерации кода от xAI eng ru xAI выпустил новую модель Grok Code Fast 1 для кодирования Модель на 314 миллиардов параметров поддерживает контекст до 256К токенов и может генерировать до 92 токенов в секунду Разработчики позиционируют модель как инструмент решения базовых задач разработки она отлично подойдет например для создания веб приложений и быстрой разработки прототипов Стоимость модели составляет всего 0 2 за 1 млн входных токенов и 1 5 за 1 млн выходных Alibaba анонсировал платформу Qoder сервис для написания кода при помощи ИИ eng ru В Qoder доступно два режима работы Agent Mode и Quest Mode В Agent Mode платформа Qoder выступает в роли помощника по написанию кода что подойдет для базовых задач и быстрых правок В режиме Quest Mode помощник Qoder автономно работает с кодовыми базами по развёрнутому техзаданию Qoder составляет план работы отмечает выполненные задачи в to do листе автоматизирует тестирование и валидацию может составить документацию по уже существующим проектам Система поддерживает MCP Новый инструмент пополняет ряды IDE с ИИ и конкурирует с другими системами такими как Cursor и Windsurf На период беты Qoder доступен полностью бесплатно дайджест aivk

Технологии251 день назад