6 августа, 15:54

Утечка данных Nvidia: массовое скачивание видео для ИИ-модели Cosmos без согласия

Сиолошная
В сеть утекли документы и скриншоты переписки сотрудников Nvidia касательно проекта по скачиванию видео для последующего обучения видео- моделей. Очень интересно, к какому юридическому прецеденту это приведёт — ибо в переписке видны сомнительные заявления, что высшее руководство на всё дало разрешение, и что нужно качать и Netflix, и вот какую-то пачку YouTube-каналов тоже надо обойти см. картинку , и про фильмы Голливуда не забыть. На момент мая 2024-го компания проводила эксперименты с моделью на 1 миллиард параметров перед дальнейшим масштабированием в 10 раз. Вероятно, к текущему моменту бОльшая версия уже натренирована. Я бы сказал, что значит скоро увидим Sora от Nvidia, но теперь уже может и нет В сутки проект выкачивает примерно 80 лет видео, и за 5 недель было выгружено около 40 миллионов видео. С одной стороны это кажется ого-го сколько, а с другой — это капля в море существующего контента. Также прилагаю распределение видео по категориям, если вам вдруг интересно. На утечку уже начали реагировать каналы, замеченные в сообщениях. Интересно, будет ли коллективный иск, и будет ли его поддерживать Google — увидим ли мы неприкрытую битву триллионных корпораций за данные?
360 новости
Авторы роликов на YouTube подали в суд на OpenAI за обучение на них ИИ Авторы роликов для видеохостинга YouTube направили коллективный иск против компании-разработчика искусственного интеллекта OpenAI за использование их контента без согласия автора для тренировки нейросетей, передает агентство Bloomberg со ссылкой на иск.
Нецифровая экономика
Nvidia выходит в Cosmos Так называется продукт, который компания создает сейчас. Новая AI-модель позволит генерировать 3D-вселенные, сможет быть использована в самоуправляемых автомобилях и позволит создавать "цифровых людей". Как свидетельствуют слитые документы, для обучения модели Nvidia использует видео с YouTube, Netflix и других источников, потребляя в день видеоматериала длиною с человеческую жизнь. На вопросы про легальность источников видео для обучения модели компания отвечает уклончиво, что она ничего не нарушает.
Breaking Trends
Десятки авторов на YouTube подали коллективный иск к OpenAI за использование их роликов для обучения ChatGPT. В иске указано, что OpenAI без разрешения авторов транскрибирует миллионы роликов и обучает на их основе GPT-4o. Breaking Trends
ITsec NEWS
​ Nvidia уличили в массовом скрапинге видео для обучения ИИ В результате масштабной утечки данных компании Nvidia стало известно, что технологический гигант использовал видео с YouTube, Netflix и других платформ для обучения своих систем искусственного интеллекта. Информация была получена изданием 404 Media в ходе расследования, основанного на внутренней переписке сотрудников Nvidia в Slack, электронных письмах и документах компании. Согласно утечке, Nvidia активно собирала видеоматериалы для разработки нескольких ключевых продуктов: генератора 3D-миров Omniverse, систем автономного вождения и технологии «цифровых людей». Несмотря на то, что некоторые сотрудники выражали обеспокоенность этичностью и легальностью таких действий, руководство компании уверяло, что получило разрешение на использование контента «с самых высоких уровней». Основным источником данных стал YouTube, однако сотрудники Nvidia также обсуждали возможность использования контента с Netflix и GitHub. Более того, один из работников предложил включить в обучающую выборку фильмы, аргументируя это тем, что кинокартины могли бы стать отличным источником качественных данных для создания реалистичных 3D-миров и вымышленных персонажей. Масштабы проекта впечатляют: в одном из писем вице-президент по исследованиям Nvidia Минг-Ю Лю упомянул о планах создания «фабрики видеоданных». Она должна была обрабатывать за день столько видео, сколько человек может увидеть за всю жизнь. Для этого компания хотела использовать от 20 до 30 виртуальных машин на Amazon Web Services. В ходе обсуждений сотрудники Nvidia рассматривали различные YouTube-каналы как потенциальные источники данных. Среди них оказались не только официальные каналы крупных брендов, таких как Expedia и Architectural Digest, но и популярные техноблогеры, включая Маркеса Браунли MKBHD . Когда журналисты 404 Media обратились к Nvidia за комментариями по поводу легальности и этичности использования защищенного авторским правом контента для обучения ИИ, компания заявила, что их практика «полностью соответствует букве и духу закона об авторском праве». Стоит отметить, что это не первый случай, когда Nvidia сталкивается с обвинениями в неправомерном использовании данных. В июле 2023 года компанию уже обвиняли в использовании информации, полученной сторонней фирмой путем несанкционированного скрапинга YouTube-видео. ITsec NEWS
Все о блокчейн, мозге и WEB 3.0 в России и мире
большая утечка из NVIDIA. Компания создала ИИ-модель Cosmos из данных Netflix, YouTube без согласия на сбор данных Согласно данным из электронных писем, чатов Slack, внутренних документов NVIDIA, компания создала еще не выпущенную ИИ-модель массово собирала видео с Netflix, YouTube, хотя у них нет соглашений о сотрудничестве. Вот, что известно о новой ИИ-модели. Проект Cosmos нацелен на создание передовой видео-основы, моделирующей перенос света, физику и интеллект. Модель Cosmos предназначалась для генератора 3D-миров Omniverse, систем автономного вождения и "цифровых людей". Сотрудники использовали open-source инструмент yt-dlp и виртуальные машины для массового скачивания видео, особенно с YouTube. Менеджеры проекта Cosmos обсуждали использование 20-30 виртуальных машин в AWS для скачивания огромного объема видеоконтента - примерно 80 лет видео в день. На схеме видно, как модель Cosmos связана с другими продуктами Nvidia GROOT, AV, OV, Avatar, GeForce .
РР - все новости
Компания Nvidia оказалась в центре скандала из-за массовой загрузки видео с платформ, таких как YouTube и Netflix, для обучения своему искусственному интеллекту. Владельцы контента выразили недовольство, утверждая, что это нарушает условия использования сервисов. Nvidia же уверяет, что ее действия законны.
Хайтек
Тут нашлись документы, согласно которым, Nvidia собрала видео «длиной в жизнь человека» с интернета. Один бывший сотрудник сообщил, что работникам поручили скачивать видео с Netflix и YouTube для обучения ИИ-моделей… Что думаете, ок/не ок?
Точка сингулярности💥
NVIDIA обучала нейросети на контенте из YouTube Компания использовала защищённый копирайтом контент для обучения моделей в своих проектах, сообщает 404 Media. Сотрудникам были выданы распоряжения загружать видео из Neftlix, YouTube. Чтобы YouTube не засёк масштабный парсинг видео, работники NVIDIA загружали видео через виртуальные машины, меняя IP-адреса. Представитель YouTube, комментируя новость, отослал издание Engadget к позиции, озвученной ещё в апреле во время аналогичного скандала с #OpenAI : использование видео с хостинга для обучения ИИ-моделей нарушает правила использования сервиса. NVIDIA же оправдывается, заявляя, что соблюдает законы об авторском праве: мол, она не контент берёт, а общедоступные факты, идеи и информацию. А то, что это всё содержится в закопирайченных роликах, — ну и какая разница? Похоже, что стратегия компании пришла из пабликов с волчьими цитатами: «Лучше сделать и жалеть, чем не сделать и пожалеть, ауф». #AINews #Nvidia
Moldova Liberă
Nvidia скачивала контент с YouTube и других платформ для обучения ИИ Компания ежедневно загружала видеоматериалы с YouTube, Netflix и других платформ для обучения своих ИИ-систем — каждый день сотрудники Nvidia скачивали видеоролики общей продолжительностью до 80 лет. Подробнее читайте на нашем сайте.