Этот сайт — моя персональная записная книжка. Интересна мне, по большей части, история, своя жизнь и немного программирование.

DeepSeek R1

Хочу поделиться. Погоняли китайскую нейросеть «ДипСик Эр1» на оборудовании «Селектела», за что ребятам, как всегда, большое спасибо. Это, конечно, чудо, что на относительно скромном оборудовании можно себе развернуть полноценную большую языковую модель.

На двух nVidia A100 40 GB модель как-то ползает (мы брали квантизованную Q2_K_XL). Можно общаться, но не слишком комфортно. А вот на двух карточках по 80 гигабайт в однопользовательском режиме работает уже просто отлично. В память лезет чуть больше половины всех слоёв, больше всего грузятся ядра центрального процессора (у нас там 24 ядра на 2,4 ГГц), но общаться вполне комфортно — скорость порядка 170 токенов в минуту.

Завтра попробуем замерить сколько человек может работать с такой моделью параллельно. Но даже уже в этой конфигурации можно проверять какие-то гипотезы. Удивительно насколько доступными стали топовые языковые модели!

3 комментария
Имя и фамилия 25 дн

А вот это уже интересно!

Антон 25 дн

А модель меньшего размера (70b), но не квантизованную не рассматривали? Тут вопрос целей, конечно, но любопытно.

Евгений Степанищев 25 дн

70B нам не подходит для тех задач, которые мы выбрали.

Антон 24 дн

Евгений, было бы интересно узнать о задачах, без коммерческих подробностей, именно техническая сторона вопроса. Мне лично часто не очевидно, какой критерий выбора размера модели для тех или иных задач.

Евгений Степанищев 24 дн

Если речь о языковых моделях, то критерий простой — дать задачу несколько раз и посмотреть что выдаётся. Оценить насколько пригодно. Другого критерия как будто и нет.

Для некоторых наших задач и 12B вполне хватает. Но зависит от того на чём модель училась ещё.