あなたのラックが本当に処理できるGPUの数 電源&冷却プランニングガイド

あなたのラックは何台のGPUに対応できますか?電源と冷却計画ガイド

何度も聞いたことがあるだろう:

“「それで......ラックに何個のGPUを詰め込めるんだ?”

GPU数」から始めると、物理学との議論に終始することになる。ラックは、あなたがAIについてどれほど興奮していようと気にしない。気になるのは2つの退屈な限界だ:

  • 電源エンベロープ(kW/ラック)
  • 冷却除去(実際に移動させることができる熱のkW)

私の考えは単純だ: ラック密度は第一に設備の問題であり、第二にシャーシの問題である。. しかし、シャーシが重要なのは変わりない。なぜなら、エアフローが機能するか......カオスになるかを決めるのはシャーシだからだ。.

ブレーカー→PDU→サーバーの引き込み→熱→エアフロー/液体→安定性。.


あなたのラックが本当に処理できるGPUの数 電源&冷却プランニングガイド

平均ラック密度8kW以下

多くのサーバールームでは、いまだに “レガシー密度 ”で稼動しているのだ。業界調査によると 平均ラック密度は8kW未満を維持そして >30kW以上のラックは一般的ではない ほとんどのサイトで。.

このギャップが、AI導入が混乱する理由だ。最新のGPUノードを導入すると、突然、あなたの部屋はキャッチアップに追われることになる:

  • 過小配電
  • 弱気流路
  • 封じ込めなし
  • 以前は問題なかったホットスポット

そうだ。 できる GPUを買う。本当の問題は スロットルなしで給餌と冷却ができるか?


ラック電源予算(kW/ラック)

ワットインはヒートアウトに等しい

定常状態では、ラックは基本的にファン付きのスペースヒーターだ。キャビネットの引き手 40kW, を取り除く必要がある。 40 kWの熱. .“ちょっと ”じゃない。それほど直接的だ。.

だからこそ、電源と冷却の計画は腰を据えて行うべきなのだ:

  1. ラックから始める IT電源予算 (安全に提供できるもの)
  2. 確認 冷却能力 その場所で
  3. GPU数に変換する

ディレーティング、ヘッドルーム、冗長性(N+1、2N)

ギリギリのサイズにすると後悔することになる。実際の配備では

  • ブレーカー・ディレーティング
  • ピーク・ドロー・スパイク(ブートストームは現実だ)
  • 熱応力下でのファンランプ
  • 冗長設計(N+1または2Nフィード)

言い換えれば、"忖度 "である: 表計算ソフトのように計画を立ててはいけない。オンコールのローテーションのように計画するのだ。.


最大700WのGPU TDPとサーバー全体の電力

最近のアクセラレーター・カードの多くは 最大TDP700W モデルや構成によるクールだ。しかし、ここに罠がある:

GPUワット≠サーバーワット。.

あなたのプラットフォームには以下も含まれる:

  • CPU
  • メモリー
  • NIC (200/400/800G)
  • リタイマー/スイッチ
  • ストレージ
  • ファンとPSU

つまり、誰かが「GPUを8基搭載すれば、8×700Wになる」と言ったとしても、残りの部分が欠けているのだ。これが、プロジェクトが横道にそれてしまう原因です。.

10kW前後の8GPUサーバーのパワー

現実をよく見てほしい。現場で一般的な8GPUシステムは、以下のようにリストアップできる。 最大10kW前後 サーバーレベルで。多くのチームが大まかな計画倍率を使っているのはそのためだ:

サーバー全体の消費電力≒1.6~2.0×(GPUのTDP合計)

完璧か?いいえ。初期の設計に役立つ?うん。.


GPU数に対するラック電力バジェット(計画表)

以下は、これが実際にどのように見えるかだ。左の列は “楽観的なGPUのみ ”の計算です。右の列は、より現実的なサーバー全体の係数を適用したものです。 1.8× プランニング・ガイドとして)。.

ラックIT電力予算(kW)GPUのみの試算(GPUあたり700W)サーバー全体の見積もり(≒1.8×GPUのみ)
10147
152111
202815
304223
405731
507139
608547
8011462

この表は、数学を曲げようとしているのではない。よくある失敗モードからあなたを救おうとしているのだ:

  • “GPU容量 ”を注文する”
  • そして、実際に注文したのは “ヒート&アンプ ”だったことに気づく。”

あなたのラックが本当に処理できるGPUの数 電源&冷却プランニングガイド

空冷の限界はラックあたり20~30kW付近

空冷はみんなが思っている以上に遠くまで行けるが、すぐに壊れやすくなる。.

多くのオペレーターは歴史的に ラックあたり20~30kW 空冷が “簡単 ”でなくなるポイントとして。より優れたエアフローエンジニアリングでより高いレベルを目指すことはできるが、小さなミスが大きな痛手となる世界だ。.

ホットアイルの封じ込めと再循環制御

密度が上がれば、最大の敵は次のようになる。 再循環.

高温の排気がGPUの吸気口に潜り込み、突然「700W GPU」が呼吸できないトースターのように動作する。おわかりでしょう:

  • GPUクロック低下(スロットルシティ)
  • ファンが悲鳴を上げる
  • シャーシ内部のホットスポット
  • 同一キャビネット内のサーバー間で温度が不均一

封じ込めは役に立つ。きれいなケーブル配線もそうだ。恒久的なものになる “一時的な ”ものでシャーシの前面をふさがないこともそうだ。.


液冷の使用時期(RDHx、CDU、ダイレクト・ツー・チップ)

ある時点で、空気は高価な戦いになる。そこで施設関係者がこんな言葉を口にする:

  • RDHx (リアドア熱交換器)
  • キリスト教民主同盟 (クーラント分配ユニット)
  • ダイレクト・トゥ・チップ
  • ハイブリッド冷却

初日からフルリキッドにする必要はない。しかし、道筋は立てておくべきだ。後からのレトロフィットは常に想像以上に骨の折れるもので、穏やかな週末には決して起こらない。.


実用的なラック密度シナリオ(15kW、30kW、40kW、80kW)

15kWラック:企業向けレトロフィットおよび混合ワークロード

これは「サーバールームはすでにある」という状況だ。.

通常はうまくいくものだ:

  • GPUをより多くのキャビネットに分散
  • 最大密度ではなく、エアフローが安定しているシャーシを選ぶ。
  • ハードウェアに触れる機会が多いため、保守性を優先する。

そこで、しっかりとしたラックシャーシを選ぶことが重要になります。大規模な調達を行うのであれば、一貫性のある サーバーケース 再現性があるからこそ、作戦は正気を保つことができる。.

30-40kWラック:新しいAIポッドとアルゴリズム・センター

今、あなたは “本当の密度 ”の中にいる。”

チェックリストには、以下を含めるべきである:

  • 初日から封じ込め
  • ヘッドルームと冗長性を考慮したサイズのPDU
  • エアフローを妨げないケーブルルーティング
  • GPUサーマル用に設計されたシャーシ(ファンウォール+バッフル)

もし、あなたのチームが次のようなフレーズを使うなら サーバーラックPCケース または コンピューターケースサーバー, 実際に必要なのは、専用のGPUシャーシであり、ラックコスチュームのホビーボックスではない。.

専用 GPUサーバーケース は、高密度の加速器が要求する気流圧力、間隔、サービスアクセスを提供することができます。.

80 kWラック:液体対応高密度クラスタ

ここで “サーバーのデプロイ ”をやめ、“インフラの運用 ”を始めるのだ。”

あなたはそれを気にするだろう:

  • 速いMTTR(分単位)
  • クリーンメンテナンスクリアランス
  • 信頼性の高い鉄道システム
  • チューブ/ケーブリングの予測可能なレイアウト

Railsは退屈に聞こえるが、稼働時間に影響する。良い シャーシガイドレール セットアップは、ずさんなインストールを防ぎ、スワップをより安全に(そして素早くも)行う。.


あなたのラックが本当に処理できるGPUの数 電源&冷却プランニングガイド

GPUサーバーシャーシのエアフロー:ファンウォール、バッフル、保守性

バイヤーが飛ばして、オペレーターに嫌われる部分がここにある:

シャーシはエアフローマシンだ。.

高密度のGPUノードを探す:

  • 強力なファンウォールオプション(高静圧)
  • ホットゾーンに強制的に空気を送り込むバッフル/ダクト
  • PSUの熱をGPUの吸気から遮断するレイアウト
  • 簡単なトップアクセスで素早く交換

ワークステーションのようなパーツを中心に構築している場合、次のような検索を目にするだろう。 サーバーPCケース そして atxサーバーケース. .それはたいてい合図だ:「柔軟性は欲しいが、ワークステーション級のサーマルは受け入れられない。まったくその通りだ。ただ、シャーシがATXのネジ穴だけでなく、サーバーのエアフローパターンに合わせて作られていることを確認してほしい。.

エッジルームやラボでは、コンパクトなフォーマットも必要かもしれない: ITXケース そして ウォールマウントケース 全列のエアフロー設計がない場合や、ワークロードの近くでより小さな「ポッド」を使用する場合に実用的です。.


大量導入向けOEM/ODM GPUサーバーケース

何十台(あるいは何百台)ものノードをデプロイする場合、悩みの種は “1台のサーバー ”ではない。それは再現性だ:

  • バッチ間で安定した温度
  • 安定した部品供給
  • プロジェクトの途中で流れないシャシー仕様
  • お客様のGPU、NIC、ストレージのレイアウトに合わせたカスタマイズが可能です。

そこでIStoneCaseが自然にフィットする。IStoneCaseは、OEM/ODMサポート付きのGPU/サーバー筐体およびストレージ筐体に重点を置いており、大量注文やカスタム生産に対応している。もしあなたの計画が拡張を伴うのであれば、単にランダムなケースを再販するだけでなく、毎日このようなことを行っているサプライヤーと話す価値がある。.

コンテンツ内で内部参照として使用できる IStoneCase ページをいくつか紹介します:

お問い合わせ

完全な製品ポートフォリオ

GPUサーバーケースからNASケースまで、あらゆるコンピューティングニーズに対応する幅広い製品を提供しています。

オーダーメイド・ソリューション

お客様独自の要件に基づき、カスタムサーバーケースやストレージソリューションを作成するOEM/ODMサービスを提供しています。

包括的サポート

当社の専門チームは、すべての製品のスムーズな納入、設置、継続的なサポートを保証します。