Quantas GPUs o seu rack pode realmente suportar Guia de planejamento de energia e refrigeração

Quantas GPUs o seu rack pode realmente suportar? Guia de planeamento de energia e refrigeração

Provavelmente já ouviste esta uma centena de vezes:

“Então... quantas GPUs podemos colocar num bastidor?”

Se começar com a “contagem de GPUs”, vai acabar a discutir com a física. O rack não se importa com o quão entusiasmado está com a IA. Preocupa-se com dois limites aborrecidos:

  • Envelope de potência (kW por bastidor)
  • Remoção de arrefecimento (kW de calor que pode efetivamente afastar)

A minha opinião é simples: a densidade do bastidor é, em primeiro lugar, um problema de instalações e, em segundo lugar, um problema de chassis. Mas o chassis continua a ser importante, porque decide se o fluxo de ar se comporta... ou se transforma num caos.

Vamos percorrê-lo da forma como uma equipa de operações o faria: disjuntor → PDU → consumo do servidor → calor → fluxo de ar/líquido → estabilidade.


Quantas GPUs o seu rack pode realmente suportar Guia de planejamento de energia e refrigeração

Densidade média dos bastidores inferior a 8 kW

Aqui está a parte incómoda: muitas salas de servidores ainda funcionam com “densidade antiga”. Os inquéritos da indústria mostram a densidade média dos bastidores mantém-se abaixo dos 8 kWe Os racks >30 kW não são comuns na maioria dos sítios.

É por essa razão que as implementações de IA se tornam confusas. Introduzimos nós de GPU modernos e, de repente, a nossa sala está a tentar recuperar o atraso:

  • distribuição eléctrica subdimensionada
  • fracas trajectórias de fluxo de ar
  • sem confinamento
  • pontos quentes que não eram um problema antes

Portanto, sim, tu pode comprar GPUs. A verdadeira questão é: é possível alimentá-los e arrefecê-los sem estrangulamento?


Orçamento de potência do bastidor (kW por bastidor)

A entrada de watts é igual à saída de calor

Em estado estacionário, a estante é basicamente um aquecedor de ambiente com ventoinhas. Se o seu armário puxar 40 kW, é necessário remover aproximadamente 40 kW de calor. Não é “mais ou menos”. É assim tão direto.

É por isso que o planeamento da energia e do arrefecimento deve estar ligado à anca:

  1. Começar com a cremalheira Orçamento de energia para TI (o que pode entregar com segurança)
  2. Confirmar capacidade de arrefecimento nesse local
  3. Só depois traduzir para contagem de GPU

Derating, headroom e redundância (N+1, 2N)

Se formos até ao limite, vamos arrepender-nos. As implantações reais lidam com:

  • redução do disjuntor
  • picos de consumo (as tempestades de arranque são reais)
  • rampas do ventilador sob tensão térmica
  • conceção de redundância (alimentações N+1 ou 2N)

Por outras palavras: não planeie como uma folha de cálculo. Planeie como uma rotação de plantão.


GPU TDP até 700 W e potência para todo o servidor

Muitas das placas aceleradoras modernas mostram até ~700W TDP dependendo do modelo e da configuração. É fixe. Mas aqui está a armadilha:

GPU watts ≠ servidor watts.

A sua plataforma também inclui:

  • CPU(s)
  • memória
  • NICs (200/400/800G)
  • temporizadores / interruptores
  • armazenamento
  • ventoinhas e PSUs

Por isso, se alguém disser “vamos fazer 8 GPUs, ou seja, 8 × 700W”, não está a ver o resto da caixa. É aqui que os projectos se desviam.

Potência de servidor de 8 GPUs de cerca de 10 kW

Uma boa verificação da realidade: os sistemas comuns de 8 GPU no terreno podem listar cerca de ~10 kW máx. ao nível do servidor. É por isso que muitas equipas utilizam um multiplicador de planeamento aproximado:

Potência de todo o servidor ≈ 1,6-2,0× (GPU TDP total)

É perfeito? Não. É útil numa conceção inicial? Sim.


Orçamento de potência do bastidor para contagem de GPU (tabela de planeamento)

Abaixo está o que isso parece na prática. A coluna da esquerda é a matemática “otimista apenas para GPU”. A coluna da direita aplica um fator mais realista para todo o servidor (usando 1.8× como guia de planeamento).

Orçamento de energia de TI para bastidor (kW)Estimativa apenas para GPU (700W por GPU)Estimativa para todo o servidor (≈1,8× apenas GPU)
10147
152111
202815
304223
405731
507139
608547
8011462

Esta tabela não está a tentar flexibilizar a matemática. Está a tentar salvá-lo de um modo de falha comum:

  • encomenda “capacidade GPU”
  • depois descobre-se que na realidade se encomendou “calor e amperes”

Quantas GPUs o seu rack pode realmente suportar Guia de planejamento de energia e refrigeração

Limites de arrefecimento a ar próximos de 20-30 kW por bastidor

O arrefecimento a ar pode ir mais longe do que se pensa, mas torna-se frágil rapidamente.

Muitos operadores trataram historicamente 20-30 kW por bastidor como o ponto em que o arrefecimento a ar deixa de ser “fácil”. É possível ir mais longe com uma melhor engenharia de fluxo de ar, mas estamos agora num mundo em que os pequenos erros prejudicam muito.

Contenção do corredor quente e controlo da recirculação

Quando se sobe em densidade, o maior inimigo passa a ser recirculação.

Os gases de escape quentes voltam a entrar nas entradas da GPU e, de repente, a sua “GPU de 700 W” comporta-se como uma torradeira que não consegue respirar. Verá:

  • Quedas no relógio da GPU (cidade de aceleração)
  • velocidades da ventoinha a gritar
  • pontos de acesso no interior do chassis
  • temperaturas desiguais entre servidores no mesmo armário

A contenção ajuda. Tal como a cablagem limpa. Tal como não bloquear a parte da frente do chassis com material “temporário” que se torna permanente.


Quando utilizar o arrefecimento líquido (RDHx, CDU, direto ao chip)

A certa altura, o ar torna-se uma luta dispendiosa. É nessa altura que se ouve o pessoal das instalações a falar de termos como:

  • RDHx (permutador de calor da porta traseira)
  • CDU (unidade de distribuição do líquido de refrigeração)
  • direto para o chip
  • arrefecimento híbrido

Não tem de se tornar totalmente líquido no primeiro dia. Mas deve planear o caminho. A adaptação posterior é sempre mais dolorosa do que se pensa, e nunca acontece num fim de semana calmo.


Cenários práticos de densidade de bastidores (15 kW, 30 kW, 40 kW, 80 kW)

Bastidores de 15 kW: modernização de empresas e cargas de trabalho mistas

Esta é a situação “já temos uma sala de servidores”.

O que normalmente funciona:

  • distribuir GPUs por mais gabinetes
  • escolha um chassis com um fluxo de ar estável e não uma densidade máxima a todo o custo
  • dar prioridade à facilidade de manutenção, uma vez que irá tocar frequentemente no hardware

É aqui que a escolha de um chassis de bastidor sólido é importante. Se estiver a fazer sourcing em escala, um Caso do servidor A família torna as suas construções repetíveis, e a repetição é o que mantém as operações sãs.

Bastidores de 30-40 kW: novos pods de IA e centros de algoritmos

Agora está na “densidade real”.”

A sua lista de controlo deve incluir:

  • confinamento desde o primeiro dia
  • PDUs dimensionadas com espaço livre e redundância
  • roteamento de cabos que não bloqueia o fluxo de ar
  • chassis concebido para as térmicas GPU (parede da ventoinha + deflectores)

Se a sua equipa está a comprar frases como caixa de pc para rack de servidor ou caixa de computador servidor, Se o seu computador não for um chassis para GPU, o que precisa é de um chassis para GPU, e não de uma caixa de passatempo num rack.

Um dedicado Caixa de servidor GPU pode fornecer a pressão do fluxo de ar, o espaçamento e o acesso de serviço que os aceleradores densos exigem.

Bastidores de 80 kW: clusters preparados para líquidos e de alta densidade

É aqui que se deixa de “implementar servidores” e se começa a “executar infra-estruturas”.”

Vai interessar-se por:

  • MTTR (minutes matter) rápido
  • limpeza e manutenção
  • sistemas ferroviários fiáveis
  • disposição previsível dos tubos/cabos

Os Rails parecem aborrecidos, mas afectam o tempo de funcionamento. Um bom Calha de guia do chassis evita instalações descuidadas e torna as trocas mais seguras (e mais rápidas também).


Quantas GPUs o seu rack pode realmente suportar Guia de planejamento de energia e refrigeração

Fluxo de ar do chassis do servidor GPU: parede da ventoinha, deflectores e facilidade de manutenção

Esta é a parte que os compradores saltam e os operadores odeiam-nos por isso:

o chassis é uma máquina de fluxo de ar.

Para nós de GPU densos, procure:

  • opções de parede de ventilador forte (pressão estática elevada)
  • deflectores/condutas que forçam o ar através das zonas quentes
  • layouts que isolam o calor da PSU da entrada da GPU
  • acesso superior fácil para trocas rápidas

Se estiver a construir peças semelhantes a estações de trabalho, verá pesquisas como caixa para pc de servidor e caixa do servidor atx. Isso normalmente é um sinal: “Quero flexibilidade, mas não posso aceitar um termostato de nível de estação de trabalho.” Totalmente justo. Certifique-se apenas de que o chassis foi construído para padrões de fluxo de ar de servidor e não apenas para orifícios de parafusos ATX.

Para salas ou laboratórios de ponta, também pode querer formatos compactos: Caixa ITX e Estojo para montagem na parede pode ser prático quando não se tem um design de fluxo de ar de linha completa ou quando se está a executar “pods” mais pequenos perto de cargas de trabalho.


Caixa de servidor GPU OEM/ODM para implementação em massa

Se estiver a implementar dezenas (ou centenas) de nós, o seu problema não é “um servidor”. É a repetibilidade:

  • térmicas estáveis em todos os lotes
  • disponibilidade constante de peças
  • uma especificação de chassis que não se desvie a meio do projeto
  • personalização para a sua disposição exacta de GPU, NIC e armazenamento

É aí que a IStoneCase se encaixa naturalmente. A empresa concentra-se em caixas para GPU/servidor e chassis de armazenamento com suporte OEM/ODM, concebidas para encomendas em massa e execuções personalizadas. Se o seu plano envolve escalonamento, vale a pena falar com um fornecedor que o faz todos os dias e não apenas revende caixas aleatórias.

Algumas páginas IStoneCase que pode utilizar como referências internas no seu conteúdo:

Contacte-nos para resolver o seu problema

Portfólio completo de produtos

Desde caixas de servidor GPU a caixas NAS, fornecemos uma vasta gama de produtos para todas as suas necessidades informáticas.

Soluções à medida

Oferecemos serviços OEM/ODM para criar caixas de servidor e soluções de armazenamento personalizadas com base nos seus requisitos exclusivos.

Apoio abrangente

A nossa equipa dedicada garante uma entrega, instalação e assistência contínua sem problemas para todos os produtos.