Балтийский болтун
Разработчики искусственного интеллекта, такие как компании OpenAI, Google и Meta , в обход закона собирают информацию для обучения своих систем со всего интернета, а также через миллионы часов видео на YouTube, который запрещает такие действия, сообщает издание New York Times со ссылкой на источники в индустрии. "OpenAI, Google и Meta игнорировали корпоративную политику, изменили свои собственные правила и обсуждали обход закона об авторском праве, когда искали онлайн-информацию для обучения своих новейших систем искусственного интеллекта", - пишет издание.
Технопроходцы
ИИ нарушает правила. Но по-другому пока не получается Оказалось, что компании, включая OpenAI и Google, сталкиваются с этическими и юридическими проблемами при расширении своих информационных баз. OpenAI, например, использовала миллионы часов видео с YouTube для обучения, вызвав дискуссии о законности таких действий. Сейчас эксперты обсуждают возможные решения, включая создание синтетических данных и куррикулярное обучение. Однако использование данных без разрешения владельцев остаётся актуальной проблемой, которая имеет серьёзные юридические последствия. Источник
ОКО
The New York Times: Разработчики ИИ нарушают нормы этики и законы в погоне за данными OpenAI, Google и Meta столкнулись с нехваткой данных для обучения передовых моделей. Несогласованное использование материалов становится причиной судебных разбирательств. Разработчики ИИ вынуждены оперировать в серой зоне, преследуя цели развития технологии. Исследовательский институт Epoch утверждает, что качественные данные из профессиональных книг и статей иссякнут к 2026 году, что создаст проблемы для обучения искусственного интеллекта. “Единственный практический способ существования таких инструментов — обучение на огромных массивах информации без разрешения ее создателей. Объем необходимых данных настолько велик, что не поможет даже коллективное лицензирование”, — считают эксперты
AI Masterminds
OpenAI расшифровала более миллиона часов видео с YouTube для обучения GPT-4. Для этого компания использовала инструмент распознавания речи Whisper. Ранее на этой неделе Wall Street Journal писала, что OpenAI намерена использовать транскрипции роликов с YouTube для обучения грядущей GPT-5. Источники газеты отмечали, что разработчик применял расшифровки контента с видеохостинга Google при работе над GPT-4, которая вышла в марте прошлого года. Исследование издания демонстрирует, что технологические компании, включая OpenAI, Google и Meta, в ряде случаев игнорировали корпоративную политику и пытались обойти закон, чтобы получить больше данных.
GPT | ChatGPT | Midjourney — GPTMain News
OpenAI обучила GPT-4 на миллионе часов видео с YouTube The New York Times пишет, что в 2021 году OpenAI отчаянно нуждалась в данных для обучения GPT-4 и перевела в текст более миллиона часов видео с YouTube. Специально для этого компания разработала нейросеть Whisper. По данным NYT, в OpenAI понимали, что это сомнительный с юридической точки зрения способ, но сочли его допустимым. На днях WSJ рассказал о том что разработчики LLM исчерпали запасы полезных данных в интернете, которые можно было бы использовать для обучения AI. Теперь им приходится использовать синтетические наборы данных или брать любую информацию, до которой они могут дотянуться, независимо от того, есть у них на это разрешение или нет.
Естественный интеллект: новости науки и техники
Разработчики ИИ на Западе работают, наплевав на законы — NYT Искусственный интеллект на Западе обучают с нарушением законов, 6 апреля сообщает газета The New York Times. По словам источников издания в индустрии, игнорируют законы при сборе информации со всего интернета для обучения своих новейших систем ИИ такие компании, как OpenAI, Google и Meta организация, деятельность которой запрещена в РФ . Читать подробнее
Мы из будущего
The New York Times: Разработчики ИИ нарушают нормы этики и законы в погоне за данными OpenAI, Google и Meta столкнулись с нехваткой данных для обучения передовых моделей. Несогласованное использование материалов становится причиной судебных разбирательств. Разработчики ИИ вынуждены оперировать в серой зоне, преследуя цели развития технологии. Исследовательский институт Epoch утверждает, что качественные данные из профессиональных книг и статей иссякнут к 2026 году, что создаст проблемы для обучения искусственного интеллекта. “Единственный практический способ существования таких инструментов — обучение на огромных массивах информации без разрешения ее создателей. Объем необходимых данных настолько велик, что не поможет даже коллективное лицензирование”, — считают эксперты. Мы из будущего
DNS_Club
OpenAI расшифровала более миллиона часов видео с YouTube для GPT-4 — это нарушение авторских прав Недавно газета The Wall Street Journal сообщила, что компании, занимающиеся искусственным интеллектом, столкнулись с существенной проблемой — им не хватает общедоступных данных для обучения новый нейросетей. Поэтому некоторым разработчикам приходится идти на крайние меры и даже нарушать законы. Читать далее
Анализ данных (Data analysis)
Млн+ часов YouTube для обучения GPT-4 ⏩OpenAI расшифровала более миллиона часов видео с YouTube для обучения GPT-4, воспользовавшись лазейкой в законе об авторском праве. Компания использовала свою модель транскрипции аудио Whisper. Президент OpenAI Грег Брокман лично участвовал в сборе видео. ⏩Представитель OpenAI Линдси Хелд сообщила, что компания использует «многочисленные источники, включая общедоступные данные и партнёрские отношения», а также изучает возможность создания собственных синтетических данных. ⏩Представитель Google Мэтт Брайант отметил, что «как файлы robots.txt, так и Условия обслуживания запрещают несанкционированное сканирование или загрузку контента YouTube». По его словам, Google принимает «технические и юридические меры» для предотвращения такого использования. При этом сама компания обучала свои модели «на некотором контенте YouTube в соответствии с соглашениями с авторами». ⏩В статье The New York Times говорится, что OpenAI исчерпала запасы полезных данных в 2021 году. К тому времени она обучила модели на данных, которые включали компьютерный код из Github, базы данных шахматных ходов и материалы школьных заданий из Quizlet. Эксперты считают, что запас доступного для обучения контента иссякнет к 2028 году. После этого оно будет производиться на синтетических данных, созданных другим ИИ. Эксперты допускают, что некоторые компании также могут преднамеренно пойти на нарушение авторских прав.
Похожие новости +3 +3 +3
Google предотвращает первую атаку с использованием ИИ на двухфакторную аутентификацию
Технологии
1 день назадThinking Machines анонсирует новые модели взаимодействия с ИИ для живого общения
Технологии
1 день назадСотрудники OpenAI реализовали акции на 6,6 миллиарда долларов
Экономика
1 день назадOpenAI предлагает создать глобальную структуру для управления искусственным интеллектом
Технологии
7 часов назадВ Москве стартовал IV Форум по доверенному ИИ и III Конференция по ИИ в библиотечно-информационной деятельности
Общество
7 часов назадКонференция AI2Business и прием докладов на Saint HighLoad 2026: внедрение ИИ в бизнес и разработку
Технологии
7 часов назад