DeepSeek R1 на A100
Как я уже писал, мы попробовали позапускать «Дипсик Эр1» на разных конфигурациях графических ускорителей NVIDIA A100. Запускали не полную модель, а квантизованную. Неясно насколько она глупее на наших задачах, бегло попробовали разные тесты, как будто бы от квантизации она пострадала несильно.
Я собирался написать об этом ещё раз, когда мы разберёмся с подходящей конфигурацией, но как-то позабыл.

Выводы следующие.
Для того, чтобы модель поместилась в видеопамять, суммарно нужно около 150 гигабайт. То есть две Nvidia A100 по 80 ГБ подходят. Эта конфигурация позволяет работать одному пользователю в один момент времени. Остальные будут ждать, когда ресурс освободится. Соответственно, конфигурация, которая у меня на скриншоте, может отвечать одновременно двум пользователям.
При этом оперативная память почти не используется. Её можно выделять очень мало.
Если модель в видеопамять не умещается, она может загружаться в оперативную память, но при этом скорость её работы сильно падает, не советую.
Ядер центрального процессора при этом много не надо. Иногда по непонятной причине они нагружаются, но не сильно. Около пары десятков ядер хватает за глаза, можно было уменьшать, но мы этот параметр не крутили.
Покупать при этом, конечно же, надо не A100, а H100, у них сейчас самое выгодное соотношение цена/вычислительная мощность. Ждать их дольше, но оно того стоит.
https://x.com/alexocheema/status/1899735281781411907
Здесь народ запускает полную R1 на двух M3 Ultra (2 x 512 Гб памяти), с помощью этого решения: https://github.com/exo-explore/exo. Не ясно только, какой максимальный размер контекста возможен в такой конфигурации.
Забавно :-)
«Ждать дольше»))) Люди, у которых есть 4 000 000 рублей, беспокоятся о сроках доставки)
Люди, у которых есть 4 000 000 людей, тратят их не просто так, а для решения какой-то задачи. А у задач есть сроки.
По вашим постам ощущение, что вы экспериментируете, а не прям решаете задачу. Выделены милиионы на эксперименты? Допускается ли вариант «ну, не взлетело»?
Чтобы понять сколько выделить, нужны эксперименты. Я же писал, что мы взяли оборудование в аренду.