Quantas GPUs pode realmente suportar o seu bastidor? Guia de Planeamento de Energia e Arrefecimento

Provavelmente já ouviste esta uma centena de vezes:

“Então... quantas GPUs podemos colocar num bastidor?”

Se começar com a “contagem de GPUs”, vai acabar a discutir com a física. O rack não se importa com o quão entusiasmado está com a IA. Preocupa-se com dois limites aborrecidos:

Envelope de potência (kW por bastidor)
Remoção de arrefecimento (kW de calor que pode efetivamente afastar)

A minha opinião é simples: a densidade do bastidor é, em primeiro lugar, um problema de instalações e, em segundo lugar, um problema de chassis. Mas o chassis continua a ser importante, porque decide se o fluxo de ar se comporta... ou se transforma num caos.

Vamos percorrê-lo da forma como uma equipa de operações o faria: disjuntor → PDU → consumo do servidor → calor → fluxo de ar/líquido → estabilidade.

Quantas GPUs o seu rack pode realmente suportar Guia de planejamento de energia e refrigeração

Densidade média dos bastidores inferior a 8 kW

Aqui está a parte incómoda: muitas salas de servidores ainda funcionam com “densidade antiga”. Os inquéritos da indústria mostram a densidade média dos bastidores mantém-se abaixo dos 8 kWe Os racks >30 kW não são comuns na maioria dos sítios.

É por essa razão que as implementações de IA se tornam confusas. Introduzimos nós de GPU modernos e, de repente, a nossa sala está a tentar recuperar o atraso:

distribuição eléctrica subdimensionada
fracas trajectórias de fluxo de ar
sem confinamento
pontos quentes que não eram um problema antes

Portanto, sim, tu pode comprar GPUs. A verdadeira questão é: é possível alimentá-los e arrefecê-los sem estrangulamento?

Orçamento de potência do bastidor (kW por bastidor)

A entrada de watts é igual à saída de calor

Em estado estacionário, a estante é basicamente um aquecedor de ambiente com ventoinhas. Se o seu armário puxar 40 kW, é necessário remover aproximadamente 40 kW de calor. Não é “mais ou menos”. É assim tão direto.

É por isso que o planeamento da energia e do arrefecimento deve estar ligado à anca:

Começar com a cremalheira Orçamento de energia para TI (o que pode entregar com segurança)
Confirmar capacidade de arrefecimento nesse local
Só depois traduzir para contagem de GPU

Derating, headroom e redundância (N+1, 2N)

Se formos até ao limite, vamos arrepender-nos. As implantações reais lidam com:

redução do disjuntor
picos de consumo (as tempestades de arranque são reais)
rampas do ventilador sob tensão térmica
conceção de redundância (alimentações N+1 ou 2N)

Por outras palavras: não planeie como uma folha de cálculo. Planeie como uma rotação de plantão.

GPU TDP até 700 W e potência para todo o servidor

Muitas das placas aceleradoras modernas mostram até ~700W TDP dependendo do modelo e da configuração. É fixe. Mas aqui está a armadilha:

GPU watts ≠ servidor watts.

A sua plataforma também inclui:

CPU(s)
memória
NICs (200/400/800G)
temporizadores / interruptores
armazenamento
ventoinhas e PSUs

Por isso, se alguém disser “vamos fazer 8 GPUs, ou seja, 8 × 700W”, não está a ver o resto da caixa. É aqui que os projectos se desviam.

Potência de servidor de 8 GPUs de cerca de 10 kW

Uma boa verificação da realidade: os sistemas comuns de 8 GPU no terreno podem listar cerca de ~10 kW máx. ao nível do servidor. É por isso que muitas equipas utilizam um multiplicador de planeamento aproximado:

Potência de todo o servidor ≈ 1,6-2,0× (GPU TDP total)

É perfeito? Não. É útil numa conceção inicial? Sim.

Orçamento de potência do bastidor para contagem de GPU (tabela de planeamento)

Abaixo está o que isso parece na prática. A coluna da esquerda é a matemática “otimista apenas para GPU”. A coluna da direita aplica um fator mais realista para todo o servidor (usando 1.8× como guia de planeamento).

Orçamento de energia de TI para bastidor (kW)	Estimativa apenas para GPU (700W por GPU)	Estimativa para todo o servidor (≈1,8× apenas GPU)
10	14	7
15	21	11
20	28	15
30	42	23
40	57	31
50	71	39
60	85	47
80	114	62

Esta tabela não está a tentar flexibilizar a matemática. Está a tentar salvá-lo de um modo de falha comum:

encomenda “capacidade GPU”
depois descobre-se que na realidade se encomendou “calor e amperes”

Limites de arrefecimento a ar próximos de 20-30 kW por bastidor

O arrefecimento a ar pode ir mais longe do que se pensa, mas torna-se frágil rapidamente.

Muitos operadores trataram historicamente 20-30 kW por bastidor como o ponto em que o arrefecimento a ar deixa de ser “fácil”. É possível ir mais longe com uma melhor engenharia de fluxo de ar, mas estamos agora num mundo em que os pequenos erros prejudicam muito.

Contenção do corredor quente e controlo da recirculação

Quando se sobe em densidade, o maior inimigo passa a ser recirculação.

Os gases de escape quentes voltam a entrar nas entradas da GPU e, de repente, a sua “GPU de 700 W” comporta-se como uma torradeira que não consegue respirar. Verá:

Quedas no relógio da GPU (cidade de aceleração)
velocidades da ventoinha a gritar
pontos de acesso no interior do chassis
temperaturas desiguais entre servidores no mesmo armário

A contenção ajuda. Tal como a cablagem limpa. Tal como não bloquear a parte da frente do chassis com material “temporário” que se torna permanente.

Quando utilizar o arrefecimento líquido (RDHx, CDU, direto ao chip)

A certa altura, o ar torna-se uma luta dispendiosa. É nessa altura que se ouve o pessoal das instalações a falar de termos como:

RDHx (permutador de calor da porta traseira)
CDU (unidade de distribuição do líquido de refrigeração)
direto para o chip
arrefecimento híbrido

Não tem de se tornar totalmente líquido no primeiro dia. Mas deve planear o caminho. A adaptação posterior é sempre mais dolorosa do que se pensa, e nunca acontece num fim de semana calmo.

Cenários práticos de densidade de bastidores (15 kW, 30 kW, 40 kW, 80 kW)

Bastidores de 15 kW: modernização de empresas e cargas de trabalho mistas

Esta é a situação “já temos uma sala de servidores”.

O que normalmente funciona:

distribuir GPUs por mais gabinetes
escolha um chassis com um fluxo de ar estável e não uma densidade máxima a todo o custo
dar prioridade à facilidade de manutenção, uma vez que irá tocar frequentemente no hardware

É aqui que a escolha de um chassis de bastidor sólido é importante. Se estiver a fazer sourcing em escala, um Caso do servidor A família torna as suas construções repetíveis, e a repetição é o que mantém as operações sãs.

Bastidores de 30-40 kW: novos pods de IA e centros de algoritmos

Agora está na “densidade real”.”

A sua lista de controlo deve incluir:

confinamento desde o primeiro dia
PDUs dimensionadas com espaço livre e redundância
roteamento de cabos que não bloqueia o fluxo de ar
chassis concebido para as térmicas GPU (parede da ventoinha + deflectores)

Se a sua equipa está a comprar frases como caixa de pc para rack de servidor ou caixa de computador servidor, Se o seu computador não for um chassis para GPU, o que precisa é de um chassis para GPU, e não de uma caixa de passatempo num rack.

Um dedicado Caixa de servidor GPU pode fornecer a pressão do fluxo de ar, o espaçamento e o acesso de serviço que os aceleradores densos exigem.

Bastidores de 80 kW: clusters preparados para líquidos e de alta densidade

É aqui que se deixa de “implementar servidores” e se começa a “executar infra-estruturas”.”

Vai interessar-se por:

MTTR (minutes matter) rápido
limpeza e manutenção
sistemas ferroviários fiáveis
disposição previsível dos tubos/cabos

Os Rails parecem aborrecidos, mas afectam o tempo de funcionamento. Um bom Calha de guia do chassis evita instalações descuidadas e torna as trocas mais seguras (e mais rápidas também).

Fluxo de ar do chassis do servidor GPU: parede da ventoinha, deflectores e facilidade de manutenção

Esta é a parte que os compradores saltam e os operadores odeiam-nos por isso:

o chassis é uma máquina de fluxo de ar.

Para nós de GPU densos, procure:

opções de parede de ventilador forte (pressão estática elevada)
deflectores/condutas que forçam o ar através das zonas quentes
layouts que isolam o calor da PSU da entrada da GPU
acesso superior fácil para trocas rápidas

Se estiver a construir peças semelhantes a estações de trabalho, verá pesquisas como caixa para pc de servidor e caixa do servidor atx. Isso normalmente é um sinal: “Quero flexibilidade, mas não posso aceitar um termostato de nível de estação de trabalho.” Totalmente justo. Certifique-se apenas de que o chassis foi construído para padrões de fluxo de ar de servidor e não apenas para orifícios de parafusos ATX.

Para salas ou laboratórios de ponta, também pode querer formatos compactos: Caixa ITX e Estojo para montagem na parede pode ser prático quando não se tem um design de fluxo de ar de linha completa ou quando se está a executar “pods” mais pequenos perto de cargas de trabalho.

Caixa de servidor GPU OEM/ODM para implementação em massa

Se estiver a implementar dezenas (ou centenas) de nós, o seu problema não é “um servidor”. É a repetibilidade:

térmicas estáveis em todos os lotes
disponibilidade constante de peças
uma especificação de chassis que não se desvie a meio do projeto
personalização para a sua disposição exacta de GPU, NIC e armazenamento

É aí que a IStoneCase se encaixa naturalmente. A empresa concentra-se em caixas para GPU/servidor e chassis de armazenamento com suporte OEM/ODM, concebidas para encomendas em massa e execuções personalizadas. Se o seu plano envolve escalonamento, vale a pena falar com um fornecedor que o faz todos os dias e não apenas revende caixas aleatórias.

Algumas páginas IStoneCase que pode utilizar como referências internas no seu conteúdo:

Caixa para montagem em bastidor
Dispositivos NAS

Quantas GPUs o seu rack pode realmente suportar? Guia de planeamento de energia e refrigeração

Densidade média dos bastidores inferior a 8 kW

Orçamento de potência do bastidor (kW por bastidor)

A entrada de watts é igual à saída de calor

Derating, headroom e redundância (N+1, 2N)

GPU TDP até 700 W e potência para todo o servidor

Potência de servidor de 8 GPUs de cerca de 10 kW

Orçamento de potência do bastidor para contagem de GPU (tabela de planeamento)

Limites de arrefecimento a ar próximos de 20-30 kW por bastidor

Contenção do corredor quente e controlo da recirculação

Quando utilizar o arrefecimento líquido (RDHx, CDU, direto ao chip)

Cenários práticos de densidade de bastidores (15 kW, 30 kW, 40 kW, 80 kW)

Bastidores de 15 kW: modernização de empresas e cargas de trabalho mistas

Bastidores de 30-40 kW: novos pods de IA e centros de algoritmos

Bastidores de 80 kW: clusters preparados para líquidos e de alta densidade

Fluxo de ar do chassis do servidor GPU: parede da ventoinha, deflectores e facilidade de manutenção

Caixa de servidor GPU OEM/ODM para implementação em massa

Contacte-nos para resolver o seu problema

Normas de controlo de qualidade para caixas de servidor de montagem na parede

Viabilidade das GPUs em chassis de nó duplo

Controlo de ruído e vibração em caixas NAS de alta capacidade

Alinhamento térmico e isolamento do fluxo de ar entre nós

Portfólio completo de produtos

Soluções à medida

Apoio abrangente

Densidade média dos bastidores inferior a 8 kW

Orçamento de potência do bastidor (kW por bastidor)

A entrada de watts é igual à saída de calor

Derating, headroom e redundância (N+1, 2N)

GPU TDP até 700 W e potência para todo o servidor

Potência de servidor de 8 GPUs de cerca de 10 kW

Orçamento de potência do bastidor para contagem de GPU (tabela de planeamento)

Limites de arrefecimento a ar próximos de 20-30 kW por bastidor

Contenção do corredor quente e controlo da recirculação

Quando utilizar o arrefecimento líquido (RDHx, CDU, direto ao chip)

Cenários práticos de densidade de bastidores (15 kW, 30 kW, 40 kW, 80 kW)

Bastidores de 15 kW: modernização de empresas e cargas de trabalho mistas

Bastidores de 30-40 kW: novos pods de IA e centros de algoritmos

Bastidores de 80 kW: clusters preparados para líquidos e de alta densidade

Fluxo de ar do chassis do servidor GPU: parede da ventoinha, deflectores e facilidade de manutenção

Caixa de servidor GPU OEM/ODM para implementação em massa

Contacte-nos para resolver o seu problema

Publicações relacionadas

E/S frontal vs. E/S traseira no chassis de servidor GPU: O que é melhor para os operadores?

Tendências futuras em chassis de servidor GPU para centros de dados de IA (2025–2030)

Lista de verificação para personalização de gabinetes de servidor GPU OEM/ODM para integradores de sistemas

Viabilidade das GPUs em chassis de nó duplo

Controlo de ruído e vibração em caixas NAS de alta capacidade

Alinhamento térmico e isolamento do fluxo de ar entre nós

Portfólio completo de produtos

Soluções à medida

Apoio abrangente