6 августа, 06:30

Российские ученые представили фреймворк ATGen для оптимизации сбора данных для LLM

По мнению NVIDIA, будущее ИИ-агентов — за небольшими языковыми моделями  SLM , а не за тяжёлыми системами вроде GPT-4. В новом докладе компания объясняет: огромные модели слишком затратны и неповоротливы для большинства повседневных задач.  Речь идёт о действиях, с которыми агенты сталкиваются регулярно — извлечении данных, генерации шаблонов, вызове инструментов и работе с кодом. Для этого SLM не только подходят, но зачастую справляются быстрее, дешевле и стабильнее.
PRO Hi-Tech
PRO Hi-Tech
По мнению NVIDIA, будущее ИИ-агентов — за небольшими языковыми моделями SLM , а не за тяжёлыми системами вроде GPT-4. В новом докладе компания объясняет: огромные модели слишком затратны и неповоротливы для большинства повседневных задач. Речь идёт о действиях, с которыми агенты сталкиваются регулярно — извлечении данных, генерации шаблонов, вызове инструментов и работе с кодом. Для этого SLM не только подходят, но зачастую справляются быстрее, дешевле и стабильнее.
Российские ученые из R&D-центра Т-Технологий, AIRI, Высшей школы экономики, университета «Иннополис» и Сбера создали инструмент ATGen, который позволяет в три раза сократить затраты на сбор и разметку данных, необходимых для обучения больших языковых моделей. Этот инструмент особенно полезен для небольших команд.  Исследовательский проект был представлен на конференции ACL 2025 в Вене, крупнейшем мероприятии в своей области с рейтингом А . ATGen внедряет активное обучение, позволяющее модели самостоятельно выбирать наиболее важные для разметки примеры. Это сокращает объем размечаемых данных до 33% без утраты качества. Инструмент доступен на GitHub под лицензией MIT и предназначен для создания специализированных моделей в таких сферах, как медицина и юриспруденция, помогая ускорить выпуск ИИ-продуктов и снизить их стоимость.
Злой Банкстер
Злой Банкстер
Российские ученые из R&D-центра Т-Технологий, AIRI, Высшей школы экономики, университета «Иннополис» и Сбера создали инструмент ATGen, который позволяет в три раза сократить затраты на сбор и разметку данных, необходимых для обучения больших языковых моделей. Этот инструмент особенно полезен для небольших команд. Исследовательский проект был представлен на конференции ACL 2025 в Вене, крупнейшем мероприятии в своей области с рейтингом А . ATGen внедряет активное обучение, позволяющее модели самостоятельно выбирать наиболее важные для разметки примеры. Это сокращает объем размечаемых данных до 33% без утраты качества. Инструмент доступен на GitHub под лицензией MIT и предназначен для создания специализированных моделей в таких сферах, как медицина и юриспруденция, помогая ускорить выпуск ИИ-продуктов и снизить их стоимость.
Телекоммуналка
Телекоммуналка
Разметка данных подешевеет. Исследователи из R&D-центра Т-Технологий, Института искусственного интеллекта AIRI, Высшей школы экономики, университета «Иннополис» и Центра практического искусственного интеллекта Сбера разработали набор инструментов, который втрое сокращает расходы на сбор и разметку данных – ключевой этап обучения больших языковых моделей. Подход основан на парадигме активного обучения: ИИ-модель сама выбирает наиболее необходимые для повышения точности примеры. Это сокращает объем требуемой разметки в 2-4 раза, сохраняя или улучшая качество конечной модели. Проблема дорогостоящей ручной разметки решается тем, что система сначала обучается на небольшом наборе данных, размеченных профессионалами, а затем эффективно обрабатывает более крупные массивы. Эффективность подтверждена экспериментами: набор инструментов позволяет обучать модели с тем же качеством, что и традиционные методы, но используя лишь треть необходимого объема данных. Такой подход перестраивает обучение ИИ, делая его доступным малым командам и компаниям без больших бюджетов. Совместная научная работа была представлена на крупнейшей конференции по вычислительной лингвистике в Вене ACL 2025, которая завершилась на прошлой неделе. Наши разработчики продолжают активно исследовать эту область. Если данные – это новая нефть, то большие языковые модели – это ее перегон в более полезные продукты. Важно, что заявлено о сохранении или даже улучшении качества конечной модели. Это означает, что разработчикам не придется идти на компромиссы между стоимостью и производительностью ИИ-продукта. ™ Телекоммуналка
Ученые из России придумали, как собирать и размечать данные для LLM БЕЗ гигантских затрат: фреймворк ATGen, разработанный ребятами из Т-Технологий, AIRI, ВШЭ, Сбера и Университета “Иннополис”, учит модель самостоятельно выбирать нужные данные на разметку, чем сокращает расходы в три раза.  Презентовали фреймворк на конференции в Вене и уже выложили на GitHub под лицензией MIT.
Наука, Техника и Нейровайб
Наука, Техника и Нейровайб
Ученые из России придумали, как собирать и размечать данные для LLM БЕЗ гигантских затрат: фреймворк ATGen, разработанный ребятами из Т-Технологий, AIRI, ВШЭ, Сбера и Университета “Иннополис”, учит модель самостоятельно выбирать нужные данные на разметку, чем сокращает расходы в три раза. Презентовали фреймворк на конференции в Вене и уже выложили на GitHub под лицензией MIT.
Новый фреймворк сократит расходы на сбор и разметку данных для больших языковых моделей в 3 раза   Российская команда разработчиков из R&D-центра Т-Технологий, AIRI, Высшей школы экономики, университета «Иннополис» и Центра практического искусственного интеллекта Сбера создала ATGen — первый комплексный фреймворк, который существенно упрощает и удешевляет обучение больших языковых моделей для задач генерации текста. Он подходит в том числе для небольших команд и делает возможным разметку и сбор данных без больших бюджетов.  Фреймворк использует парадигму активного обучения, при которой сама модель на каждом этапе выбирает, какие новые примеры ей нужны для максимального роста точности. ATGen также предоставляет удобный веб-интерфейс для ручной разметки данных, инструменты для оценки моделей с помощью популярных метрик для генеративных задач, интеграции с большими языковыми моделями-«учителями», включая OpenAI и Anthropic, а также современные методы эффективного обучения и инференса моделей  PEFT, vLLM, Unsloth и других .   Исследование было представлено на конференции ACL 2025, которая прошла в Австрии. Подробнее — в материале ТАСС.  Научная статья   GitHub
AIRI Institute
AIRI Institute
Новый фреймворк сократит расходы на сбор и разметку данных для больших языковых моделей в 3 раза Российская команда разработчиков из R&D-центра Т-Технологий, AIRI, Высшей школы экономики, университета «Иннополис» и Центра практического искусственного интеллекта Сбера создала ATGen — первый комплексный фреймворк, который существенно упрощает и удешевляет обучение больших языковых моделей для задач генерации текста. Он подходит в том числе для небольших команд и делает возможным разметку и сбор данных без больших бюджетов. Фреймворк использует парадигму активного обучения, при которой сама модель на каждом этапе выбирает, какие новые примеры ей нужны для максимального роста точности. ATGen также предоставляет удобный веб-интерфейс для ручной разметки данных, инструменты для оценки моделей с помощью популярных метрик для генеративных задач, интеграции с большими языковыми моделями-«учителями», включая OpenAI и Anthropic, а также современные методы эффективного обучения и инференса моделей PEFT, vLLM, Unsloth и других . Исследование было представлено на конференции ACL 2025, которая прошла в Австрии. Подробнее — в материале ТАСС. Научная статья GitHub