21 октября, 12:05

DeepSeek запускает инновационную модель OCR для эффективного распознавания документов

DeepSeek представила модель DeepSeek OCR для распознавания документов Эта открытая модель не просто извлекает текст но и восстанавливает структуру документа включая заголовки и таблицы Она идеально подходит для индексации доступна на платформе Hugging Face и GitHub под лицензией MIT Ключевая инновация оптическое сжатие контекста которое позволяет существенно снизить стоимость обработки при этом сохраняя впечатляющую точность распознавания на уровне 97 99 Модель демонстрирует качество сопоставимое с более тяжеловесными решениями но при значительно меньших вычислительных затратах ИИ способен обрабатывать 200 тыс страниц в день на ОДНОМ графическом процессоре News Soft Gear Links
Чёрный Треугольник
Чёрный Треугольник
DeepSeek представила модель DeepSeek OCR для распознавания документов Эта открытая модель не просто извлекает текст но и восстанавливает структуру документа включая заголовки и таблицы Она идеально подходит для индексации доступна на платформе Hugging Face и GitHub под лицензией MIT Ключевая инновация оптическое сжатие контекста которое позволяет существенно снизить стоимость обработки при этом сохраняя впечатляющую точность распознавания на уровне 97 99 Модель демонстрирует качество сопоставимое с более тяжеловесными решениями но при значительно меньших вычислительных затратах ИИ способен обрабатывать 200 тыс страниц в день на ОДНОМ графическом процессоре News Soft Gear Links
DeepSeek OCR революционная модель покоряет Кремниевую долину Новейшая модель с открытым исходным кодом DeepSeek OCR производит настоящий фурор в ИИ сообществе Несмотря на скромные размеры всего 3 параметра она демонстрирует производительность превосходящую крупные модели Как отмечают эксперты изображения просто лучше подходят для ввода данных LLM чем текст что и легло в основу революционного подхода   Ключевая инновация модели использование зрения для сжатия текстовой информации Поскольку изображение может содержать огромное количество текста используя меньше токенов разработчики применили принцип Изображение действительно стоит тысячи слов Исследования подтвердили что при сжатии менее 10x точность распознавания текста достигает 97 Модель демонстрирует выдающуюся эффективность может генерировать более 200 000 страниц высококачественных обучающих данных LLM VLM в день используя всего один графический процессор A100 40G Она состоит из двух ключевых компонентов DeepEncoder для сжатия изображений и DeepSeek3B MoE A570M для восстановления текста Релиз быстро набрал популярность собрав 3 3 тысячи звезд на GitHub и заняв высокие позиции в трендах Hugging Face Многие эксперты называют это моментом JPEG для ИИ открывающим новые возможности для архитектуры памяти искусственного интеллекта и потенциально ведущим к созданию бесконечно контекстных моделей Источник pandaily chinastocksnet Если полезно поставьте лайк Китай
Акции Китая — China Stocks
Акции Китая — China Stocks
DeepSeek OCR революционная модель покоряет Кремниевую долину Новейшая модель с открытым исходным кодом DeepSeek OCR производит настоящий фурор в ИИ сообществе Несмотря на скромные размеры всего 3 параметра она демонстрирует производительность превосходящую крупные модели Как отмечают эксперты изображения просто лучше подходят для ввода данных LLM чем текст что и легло в основу революционного подхода Ключевая инновация модели использование зрения для сжатия текстовой информации Поскольку изображение может содержать огромное количество текста используя меньше токенов разработчики применили принцип Изображение действительно стоит тысячи слов Исследования подтвердили что при сжатии менее 10x точность распознавания текста достигает 97 Модель демонстрирует выдающуюся эффективность может генерировать более 200 000 страниц высококачественных обучающих данных LLM VLM в день используя всего один графический процессор A100 40G Она состоит из двух ключевых компонентов DeepEncoder для сжатия изображений и DeepSeek3B MoE A570M для восстановления текста Релиз быстро набрал популярность собрав 3 3 тысячи звезд на GitHub и заняв высокие позиции в трендах Hugging Face Многие эксперты называют это моментом JPEG для ИИ открывающим новые возможности для архитектуры памяти искусственного интеллекта и потенциально ведущим к созданию бесконечно контекстных моделей Источник pandaily chinastocksnet Если полезно поставьте лайк Китай
Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Все о блокчейн/мозге/space/WEB 3.0 в России и мире
DeepSeek выпустили новую модель DeepSeek OCR это ИИ модель которая извлекает текст из документов изображений и PDF файлов Главное отличие от привычных OCR систем модель не просто читает текст а понимает структуру документа и может работать с разными форматами вывода Интересный концепт в статье имитация человеческой памяти Модель может сжимать старые части документа сильнее чем новые подобно тому как мы помним недавние события детально а далёкие размыто Ключевые возможности 1 Модель предлагает 6 режимов работы от экономичного Tiny 64 визуальных токена до мощного Gundam M 1853 токена 2 Обучена на 30 млн страниц документов на 100 языках Основной фокус китайский и английский 25млн страниц но работает и с другими языками Модель состоит из DeepEncoder и DeepSeek 3B MoE декодер Инфраструктура Python 3 12 9 CUDA 11 8 PyTorch 2 6 0 Поддержка vLLM для высокопроизводительной обработки 2500 токенов сек на A100 40G для PDF Доступна через Hugging Face Transformers Практические сценарии использования 1 Обработка архивов 2 Автоматизация документооборота 3 Мультиязычная поддержка 4 Научные исследования распознавание формул таблиц диаграмм из публикаций
БлоGнот
БлоGнот
Deepseek представила OCR систему которая сжимает текст из изображений в 10 раз с сохранением 97 информации Система требует от 64 до 800 токенов на страницу против тысяч у конкурентов вроде MinerU 2 0 который использует больше 6000 токенов В основе используется малая модель DeepSeek3B MoE благодаря размеру которой производительность системы на одном чипе Nvidia A100 составляет около 200 тысяч страниц в день Исследователи предлагают использовать систему для сжатия истории диалогов в чат ботах храня старые сообщения в меньшем разрешении как выцветает человеческая память Это концептуально новый подход к проблеме длинного контекста в языковых моделях не увеличивать окно контекста бесконечно а сжимать старую информацию с потерей части деталей Андрей Карпати восторженно отозвался о модели в Twitter утверждая что такая обработка информации позволит во много раз сократить необходимый контекст и ускорит модели изображение вообще более универсальный метод передачи информации и главное можно избавиться от токенизаторов которые он считает уродством Он конечно эмоционален в данном случае но ряд претензий к токенизаторам вполне оправданы они плохо работают с редкими языками их надо обучать отдельно в них встречаются артефакты и так далее Как то очень причудливо оправдалось утверждение репортеров Картинка стоит тысячи слов не находите the decoder com deepseeks ocr system compresses image based text so ai can handle much longer documents