22 февраля, 09:33

Чипы Groq ускоряют чат-ботов

GigaChat
GigaChat
Groq представил процессор для работы нейросетевых моделей Похоже, на рынке AI-чипов — новый перспективный игрок: стартап Groq представил свой чип LPU, который уже превосходит GPU-конкурентов. Groq продемонстрировал систему, которая может сгенерировать ответ за секунду. Компания разработала чип специально для больших языковых моделей. Он позволяет Groq генерировать примерно 500 токенов в секунду — в 12 раз больше, чем у ChatGPT-3.5. Потестировать скорость Groq на базе Mixtral и Llama без регистрации и СМС можно здесь.
Город будущего
Город будущего
Малоизвестный стартап представил, возможно, лучший процессор для нейросетей На рынке чипов для ИИ появился новый игрок — и, судя по всему, с большим потенциалом. Компания Groq представила свой процессор, который ощутимо превосходит конкурентов. Groq LPU — одноядерный чип, основанный на архитектуре тензорных потоковых процессоров TSP . Он обеспечивает производительность 750 TOPS при INT8 и 188 TFLOPS при FP16 с матричным умножением объединенных скалярных произведений 320 × 320 в дополнение к 5120 векторным ALU. Обратите внимание, что Groq — это не CPU и не GPU, а так называемый языковой процессор LPU . Он предназначен не для обучения нейросетей, а для вывода. И вот тут он показывает себя великолепно. Так, при работе с моделью Mixtral 8x7B Groq LPU обеспечивает скорость 480 токенов в секунду, а это один из лучших показателей вывода в отрасли. В модели Llama 2 70B с длиной контекста 4096 токенов Groq может обслуживать 300 токенов в секунду, а в Llama 2 7B с 2048 токенами контекста — 750 токенов/с. Правда, все понимают, что сама по себе производительность — это полдела. Нужно, чтобы игроки рынка захотели использовать новый продукт. Поэтому перспективы Groq прояснятся со временем… src
Максим imaxai Горшенин
Максим imaxai Горшенин
#lpu На рынке чипов для ИИ появился новый игрок Компания Groq представила свой процессор, который, похоже, ощутимо превосходит конкурентов Начать стоит с того, что Groq процессор называется так же — это не CPU и не GPU Это так называемый языковой процессор LPU Вторая важная особенность заключается в том, что данный LPU предназначен не для обучения нейросетей, а для вывода Groq LPU — это одноядерный чип, основанный на архитектуре тензорных потоковых процессоров TSP , который обеспечивает производительность 750 TOPS при INT8 и 188 TFLOPS при FP16 с матричным умножением объединенных скалярных произведений 320 × 320 в дополнение к 5120 векторным ALU Судя по данным в Сети, Groq очень сильно обходит других игроков рынка, системы которых опираются на GPU При работе с моделью Mixtral 8x7B Groq LPU обеспечивает скорость 480 токенов в секунду, а это один из лучших показателей вывода в отрасли В модели Llama 2 70B с длиной контекста 4096 токенов Groq может обслуживать 300 токенов в секунду, а в Llama 2 7B с 2048 токенами контекста — 750 токенов/с Подписаться
Технопроходцы
Технопроходцы
Супер помощник для ИИ Компания Groq не путать с Grok Илона Маска! , специализирующаяся на производстве ИИ-чипов, представила инновационные чипы LPU Language Processing Unit , которые могут значительно ускорить работу чат-ботов. Сам Groq чат-ботом не является, он выступает в роли "вычислительного движка", который повышает скорость работы уже существующих. Независимые тесты показали, что чипы Groq могут обрабатывать 247 токенов в секунду, в то время как решения от Microsoft достигают лишь 18. Кроме того, такой инструмент делает возможным генерацию ответа за доли секунды, а также позволяет вести живой диалог в реальном времени. Источник
ADPASS
ADPASS
Чат-боты больше не будут тормозить Стартап Groq не путать с чатботом-юмористом Grok Илона Маска выпустил чип, кратно ускоряющий работу больших языковых моделей. Это позволит общаться с ИИ без задержек, как с живым человеком, а еще сэкономит очень много электричества. Скорость «умозаключения» у платной версии ChatGPT, работающей на модели GPT-4 — 40 токенов в секунду около 160 текстовых символов, 30 слов или пара строк текста , в то время как Groq выдает за ту же секунду 500 токенов. За семь минут система способна написать текст длиной с шекспировского «Гамлета». Как водится, создал это чудо техники выходец из Google. Вот как сам Джонатан Росс объясняет важность скорости: Все дело в вовлеченности. Представьте, что я бы говорил неестественно медленно. Тогда вы бы начали отвлекаться, теряя нить разговора. Он привел пример, когда при ускорении отклика мобильного сайта на 100 миллисекунд вовлеченность пользователей растет на треть. То же самое и с нейросетевыми чат-ботами: чем быстрее пользователь получает ответ, тем легче ему взаимодействовать с сервисом, и тем активнее он будет этот сервис использовать. Подписаться
Русскоязычное киберсообщество
Русскоязычное киберсообщество
Малоизвестный стартап представил, возможно, лучший процессор для нейросетей На рынке чипов для ИИ появился новый игрок — и, судя по всему, с большим потенциалом. Компания Groq представила свой процессор, который ощутимо превосходит конкурентов. Groq LPU — одноядерный чип, основанный на архитектуре тензорных потоковых процессоров TSP . Он обеспечивает производительность 750 TOPS при INT8 и 188 TFLOPS при FP16 с матричным умножением объединенных скалярных произведений 320 × 320 в дополнение к 5120 векторным ALU. Обратите внимание, что Groq — это не CPU и не GPU, а так называемый языковой процессор LPU . Он предназначен не для обучения нейросетей, а для вывода. И вот тут он показывает себя великолепно. Так, при работе с моделью Mixtral 8x7B Groq LPU обеспечивает скорость 480 токенов в секунду, а это один из лучших показателей вывода в отрасли. В модели Llama 2 70B с длиной контекста 4096 токенов Groq может обслуживать 300 токенов в секунду, а в Llama 2 7B с 2048 токенами контекста — 750 токенов/с. Правда, все понимают, что сама по себе производительность — это полдела. Нужно, чтобы игроки рынка захотели использовать новый продукт. Поэтому перспективы Groq прояснятся со временем… src