Этот сайт — моя персональная записная книжка. Интересна мне, по большей части, история, своя жизнь и немного программирование.

GPU и охлаждение

Вот проблема хорошего решения которой я не знаю.

Дано: серверный корпус, специально разработанный под установку графических ускорителей. Внутри установлены две карты Nvidia H100, которые греются, как сволочи. Не сказать, что на критических температурах, но как-то слишком горячо.

Проблема, как я её понимаю, в том, что в корпусе есть вентиляторы, есть датчики на материнской плате и процессорах и система корпуса знает обороты какого вентилятора поднять, чтобы всё это не перегрелось. Но у графических ускорителей свои датчики, о которых эта система не имеет ни малейшего понятия.

В теории всем этим мог бы управлять Линукс, который там стоит, но он тоже понятия не имеет какими вентиляторами надо подуть, чтобы картам стало легче. То ли у нас это не настроено, то ли в принципе не настраивается.

Проблему решили, выставив повышенные обороты на вентиляторах корпуса. Теперь всё холодное даже под нагрузкой — на графических ускорителях около 30 градусов. Но как будто должно быть какое-то более изящное решение.

2 комментария
hsh 3 мес

По идее ваши кулеры должны быть в `/sys/class/thermal`, можете потыкать echo’м в каждый и попробовать найти

Евгений Степанищев 3 мес

Не помню бренд железки, но у неё API для кулеров закрытое, я гуглил, видно не все кулеры. Думаю, можно расковырять, но это какие-то костыли, наверняка должно быть какое-то более промышленное решение.

al.zatv 3 мес

Вроде для gpu нормальная температура это под 85. Это не точно: я карточки гонял давно,уже не помню ничего.

Евгений Степанищев 3 мес

Насколько я читал, H100 отключаются примерно при 95, так что 80, до которых у нас разогреваются карты, вроде нормально. Но наши админы считают, и я с ними согласен, что лучше иметь запас по температуре побольше.