Проектирование серверных кейсов на GPU для граничного ИИ и локальных выводов

Проектирование серверных кейсов на GPU для граничного ИИ и локальных выводов

Краевые выводы наказывают небрежную конструкцию шасси: пыль, вибрация, скачки тепла и доступ к обслуживанию - все это сталкивается в коробке, которая “должна просто работать”. Именно такой жесткий подход к проектированию я бы хотел, чтобы покупатели заставляли продавцов следовать ему.

Жара убивает время работы.
Я постоянно вижу, как команды тратят шестизначные суммы на GPU, а потом “экономят” на коробке, которая решает, будут ли эти GPU работать в спецификации, дросселировать месяцами или умрут раньше времени - потому что к воздушным потокам, импедансу, прокладке кабелей и эргономике обслуживания относились не как к инженерной мысли, а как к листовому металлу.
Почему мы продолжаем делать вид, что шасси - это “просто упаковка”?

Вот неудобная правда: “AI-ready” - это наклейка, а не спецификация. А за наклейкой обычно скрываются все те же избитые компромиссы - стенки вентиляторов, которые не могут удержать статическое давление под фильтрами, отсеки для блоков питания, которые не пропускают воздух, и компоновка, при которой любая задача по обслуживанию превращается в простой.

Проектирование серверных кейсов на GPU для граничного ИИ и локальных выводов

Настоящее ограничение - это не вычисления на GPU. Это плотность мощности + тепловыделение + доступ.

Три цифры имеют большее значение, чем ваш маркетинговый ход: ватты, паскали, минуты.

Ватты, потому что графические процессоры не договариваются. NVIDIA L4 это аккуратный 72W часть; на бумаге она простительна и удобна. Но ваши “серьезные” карты умозаключений сильно прыгают: L40S списки 350 Вт максимальной мощности. А системы класса H100 могут до 700 Вт (SXM) или 350-400W (PCIe, настраиваемый).

Паскали, потому что воздушный поток - это не “больше вентиляторов”. Это бюджет давления. Фильтры, решетки, узкие изгибы, неудачно расположенные пучки кабелей - каждый из них съедает статическое давление и превращает ваше “охлаждение серверного шасси GPU с высоким потоком воздуха” в теплую турбулентность.

Минуты, потому что edge и on-premference - это не хобби. Если вашему техническому специалисту требуется 45 минут и три инструмента, чтобы вытащить узел, у вас нет “операций”. Вы выдаете желаемое за действительное.

Если вы выбираете поставщика, начните с того, кто действительно относится к шасси как к продукту, а не как к товарной позиции - как, например, компания iStoneCase, позиционирующая шасси на индивидуальные проекты по крайней мере, признает, что компоновка графических процессоров не является универсальной (см. их собственные рамки на Производитель серверных шасси с графическим процессором на заказ).

Edge и on-prem: одинаковый кремний, разные режимы отказа

Пыль разрушает вентиляторы.
Граничные системы ИИ задыхаются от частиц, брызг, вибрации и неаккуратной прокладки кабелей, а локальные стойки наказывают вас постоянной тепловой нагрузкой и частотой обслуживания. Цели проектирования совпадают, но способы выхода из строя совершенно разные.
Почему же покупатели соглашаются на “стоечное шасси, но меньшего размера”?

Если вы делаете edge, перестаньте отправлять открытые корпуса в грязные комнаты и надеяться на лучшее. Используйте стратегию создания корпусов, которая предполагает наличие в реальном мире грязи и человеческих рук - компания iStoneCase прямо говорит об этом в своей статье Промышленные настенные серверные корпуса для заводских/OT-сетей.

Если вы работаете в локальной сети, относитесь к стойке как к производственной линии: меняйте, сдвигайте, заменяйте, регистрируйте. Rails имеют большее значение, чем люди признают, потому что без них никто не обслужит 30-50-килограммовый узел изящно (см. направляющие шасси для монтажа в стойку).

Непростая причина, по которой в 2024 году ситуация ухудшится.

Власть ужесточается.
Правительство США теперь публично моделирует центры обработки данных как национальную проблему с электричеством: Министерство энергетики подытожило, что американские центры обработки данных используют ~4,4% от общего объема электроэнергии в США в 2023 году, и, по прогнозам, достигнет ~6,7% до 12% к 2028 году-с использованием, по оценкам 176 ТВтч (2023) и 325-580 ТВтч (2028).
Как вы думаете, что произойдет с тепловым запасом и ограничениями объекта, если сеть будет напряжена?

Этот релиз DOE - не просто сообщение в блоге; это предупредительный выстрел, связанный с отчетом LBNL, подготовленным в ответ на Закон об энергетике 2020 года.

Проектирование серверных кейсов на GPU для граничного ИИ и локальных выводов

Проектирование серверного шасси с GPU: контрольный список, который ненавидят производители

Вы хотите получить ответ на вопрос “как проектировать”? Отлично. Вот что я ищу, когда пытаюсь отделить серьезную конструкцию шасси от каталожного наполнителя.

1) Архитектура воздушного потока, а не количество вентиляторов

  • Прямоточный поток побеждает сообразительность. Спереди назад скучно, потому что это работает.
  • Разделите горячие зоны: GPU, CPU, PSU(s), NVMe - к каждой должен быть определенный путь.
  • Если вам нужны фильтры (край), разработайте бюджет на давление. вокруг а не в виде клипов.

2) Высота - это тепловое решение (2U/4U/6U - это не эстетика).

  • 2U может работать на вывод, если вы дисциплинированы (карты с более низким TDP, меньшее количество GPU двойной ширины, вентиляторы с более высокой скоростью вращения, больше шума).
  • 4U это разумное решение по умолчанию для смешанных систем GPU + хранилище + обслуживание - именно поэтому многие покупатели начинают просматривать Варианты корпусов для монтажа в стойку 4U.
  • 6U Это то место, где плотность + воздушный поток + кабельная реальность сталкиваются - больше объема, лучше воздуховоды, меньше “гимнастики доступа” (см. Объявления о продаже серверных корпусов 6U GPU).

3) Материалы и жесткость: вибрация - тихий убийца на краю

Прочная конструкция серверных корпусов с GPU - это не просто “более толстый металл”. Это жесткость в нужных местах, меньшее количество резонансных точек, правильное крепление и отсутствие претензий к кронштейну GPU как к структурной балке.

Скажу прямо: Я больше доверяю продавцам, когда они публикуют реальные данные о материалах (толщина, марка стали, алюминиевые детали), а не прилагательные. Даже на страницах товаров конкретика побеждает пустые слова.

4) Подача питания и геометрия кабеля

  • Поддержка двойного блока питания - это не “предприятие”, это контроль рисков.
  • Прокладка кабелей не должна задевать впускные тракты.
  • Предусмотрите разъемы питания GPU (8-pin/16-pin), чтобы они не стали препятствием для воздушного потока.

5) Дизайн услуг: доступ - это характеристика производительности

Если ваш техник не сможет быстро заменить поддон вентилятора, вы будете работать с ухудшенным охлаждением “временно”, пока оно не станет постоянным.

Именно здесь рельсы и шаблоны без инструментов перестают быть “приятным приобретением”. Снова: направляющие шасси это небольшая часть, оказывающая огромное влияние на операционную деятельность.

Требования к пограничному ИИ в сравнении с локальными шасси для обработки выводов

Атрибут дизайнаСерверное шасси Edge AIСтоечный серверный корпус для GPUЧто сломается, если игнорировать это
Фильтрация воздухаФильтрованное всасывание, легкая замена фильтров, вентилятор с учетом давленияЧасто не фильтруется, оптимизируйте для объемного воздушного потокаЗасорение вентиляторов (край) или образование горячих точек (стойка)
Удары/вибрацияЖесткое крепление, минимальная консольная нагрузка, надежная фиксация картыВ основном стабильная обстановкаПроблемы с посадкой GPU/PCIe, микротрещины со временем
Акустический бюджетОбычно ограничены (рядом с людьми)Часто менее ограничены (серверная комната)Командные “колпачковые” вентиляторы → тепловое дросселирование
Доступ к услугамФронтальный доступ, возможность установки на стену/короткую глубинуСкользящие направляющие, по возможности с горячей заменойДлительное время простоя на один инцидент
Тепловой запасСкачкообразные нагрузки + грязный воздух + повышенная температура окружающей средыУстойчивые нагрузки + предельные возможности объектаДроссель, затем отказ
Давление на соответствиеЛокальность данных, техника безопасности ОТКонтролируемость, документация, управлениеВас блокируют риски/соответствие требованиям

Соответствие нормативным требованиям потихоньку подталкивает к выводам на местном уровне

Регулирование кусается.
Причиной перехода на местное серверное оборудование для обработки выводов ИИ являются не только задержки и стоимость, но и управление, документация и то, кто будет виноват, если модели поведут себя неправильно в регулируемых рабочих процессах.
Хотите конкретную причину?

Начните с сайта NIST Система управления рисками искусственного интеллекта 1.0 (опубликовано под названием NIST AI 100-1 в 2023), что, по сути, является сигнальной вспышкой для предприятий: управляйте контекстом, воздействием и подотчетностью как взрослые люди.

Затем добавьте к этому правовой молот Европы: Регламент (ЕС) 2024/1689 (Закон ЕС об искусственном интеллекте), принятый 13 июня 2024 г.-Реальный закон с реальными наказаниями и документальными ожиданиями.

Когда команды, отвечающие за соблюдение нормативных требований, начинают нервничать, они задают вполне предсказуемый вопрос: “Можем ли мы хранить конфиденциальные данные в пределах контролируемой границы?”. Этот вопрос подталкивает к тому, чтобы приблизить вывод на границу или на локальную площадку, и внезапно ваш выбор шасси перестает быть “ИТ-оборудованием” и становится “инфраструктурой риска”.”

Проектирование серверных кейсов на GPU для граничного ИИ и локальных выводов

Вопросы и ответы

Что такое серверное шасси GPU?
Серверное шасси GPU - это механическая и тепловая платформа (металлические листы, направляющие, воздушные потоки, распределение питания и отверстия ввода-вывода), которая позволяет одной или нескольким картам ускорителя работать с номинальной мощностью - часто от 72 до 700 Вт на GPU - внутри стойки или внешнего корпуса без дросселирования или сбоев.
На практике это еще и система технического обслуживания: как быстро вы можете менять вентиляторы, заменять карты и поддерживать чистоту воздушного потока.

Чем серверное шасси с искусственным интеллектом отличается от стоечного корпуса GPU-сервера?
Серверное шасси для граничного ИИ - это корпус с GPU, рассчитанный на грязный воздух, повышенную температуру окружающей среды, вибрацию и ограниченный доступ для обслуживания, в то время как стоечный корпус GPU-сервера предполагает контролируемую среду и оптимизирован с учетом плотности, стандартизированных направляющих и предсказуемого потока воздуха спереди и сзади в 19-дюймовых стойках.
Если вы развертываете периферию, как центр обработки данных, то урок “фильтровать и давить” вы усвоите дорогой ценой.

Как подобрать охлаждение для графических процессоров мощностью 350-700 Вт в корпусах 2U/4U?
Определение размеров системы охлаждения - это процесс согласования общей тепловой нагрузки (потери GPU+CPU+PSU), допустимого повышения температуры и статического давления вентилятора с определенным направлением воздушного потока, чтобы ускорители могли поддерживать повышенные частоты без пересечения порогов дросселирования при реальном сопротивлении (фильтры, решетки, кабельные пучки) и наихудшей температуре на входе.
Правило: разрабатывайте дизайн для неприятного дня, а не для лабораторного.

Когда стоит использовать жидкостное охлаждение в серверном корпусе с GPU?
Жидкостное охлаждение - это метод отвода тепла, при котором контуры охлаждающей жидкости отводят тепловую энергию от GPU/CPU к радиаторам или воде в корпусе, обеспечивая более высокую постоянную плотность мощности по сравнению с воздушным охлаждением в том же объеме, особенно когда воздушный поток ограничен ограничениями по шуму, фильтрацией пыли или экстремальными требованиями к TDP GPU.
Если вы ставите мощные карты и нарушаете воздушный поток, жидкость перестает быть экзотикой и становится математикой.

Как нормативные акты влияют на решения, принимаемые на местном аппаратном обеспечении?
Влияние регулирования заключается в том, что требования к управлению - документация, отчетность, контроль рисков и правила обработки данных - заставляют организации проводить выводы в контролируемых границах, поскольку следы аудита и локальность данных легче доказать, когда инфраструктура находится в собственности и физически доступна, а не распределена по сторонним облачным сервисам.
Программа NIST AI RMF и Закон ЕС об искусственном интеллекте - два серьезных сигнала, свидетельствующих о том, что это давление не ослабевает.

Заключение

Если вы серьезно относитесь к краевому искусственному интеллекту или локальному анализу, перестаньте выбирать шасси в последнюю очередь. Начните с этого.
Ознакомьтесь с эталонными макетами, как у iStoneCase Варианты корпусов для монтажа в стойку 4U и Линейка серверных корпусов 6U с GPU, Затем проверьте свои требования на соответствие реальным ограничениям по развертыванию - пыль, время работы, шум и ватты.
И если ваша площадка находится на территории завода/ОТ, прочитайте это, прежде чем устанавливать что-либо: Настенные серверные шкафы промышленного класса для заводских сетей.

Свяжитесь с нами, чтобы решить вашу проблему

Полный портфель продуктов

Мы предлагаем широкий ассортимент продукции для любых вычислительных задач - от серверных корпусов на базе GPU до корпусов для сетевых хранилищ.

Индивидуальные решения

Мы предлагаем услуги OEM/ODM для создания индивидуальных серверных корпусов и решений для хранения данных на основе ваших уникальных требований.

Всесторонняя поддержка

Наша специальная команда обеспечивает бесперебойную доставку, установку и постоянную поддержку всех продуктов.