GPU и охлаждение
Вот проблема хорошего решения которой я не знаю.
Дано: серверный корпус, специально разработанный под установку графических ускорителей. Внутри установлены две карты Nvidia H100, которые греются, как сволочи. Не сказать, что на критических температурах, но как-то слишком горячо.
Проблема, как я её понимаю, в том, что в корпусе есть вентиляторы, есть датчики на материнской плате и процессорах и система корпуса знает обороты какого вентилятора поднять, чтобы всё это не перегрелось. Но у графических ускорителей свои датчики, о которых эта система не имеет ни малейшего понятия.
В теории всем этим мог бы управлять Линукс, который там стоит, но он тоже понятия не имеет какими вентиляторами надо подуть, чтобы картам стало легче. То ли у нас это не настроено, то ли в принципе не настраивается.
Проблему решили, выставив повышенные обороты на вентиляторах корпуса. Теперь всё холодное даже под нагрузкой — на графических ускорителях около 30 градусов. Но как будто должно быть какое-то более изящное решение.
По идее ваши кулеры должны быть в `/sys/class/thermal`, можете потыкать echo’м в каждый и попробовать найти
Не помню бренд железки, но у неё API для кулеров закрытое, я гуглил, видно не все кулеры. Думаю, можно расковырять, но это какие-то костыли, наверняка должно быть какое-то более промышленное решение.
Вроде для gpu нормальная температура это под 85. Это не точно: я карточки гонял давно,уже не помню ничего.
Насколько я читал, H100 отключаются примерно при 95, так что 80, до которых у нас разогреваются карты, вроде нормально. Но наши админы считают, и я с ними согласен, что лучше иметь запас по температуре побольше.