AI推論システムとトレーニングシステムのシャーシ選択:その違いとは?

現在GPUワークロードを使用している人なら、すでにそれを実感しているはずだ: トレーニングボックス そして 推論ボックス 同じように振る舞ってはいけない。.
だから、デフォルトで両者をまったく同じシャーシに入れることも意味がない。.

以下では、以下の選択肢を決定する本当のポイントについて説明する。 サーバーラックPCケース または サーバーPCケース それぞれのワークロードについて、具体的なポイント、1つの表、そしていくつかの実際のシーンを紹介する。.


AIトレーニングと推論:異なる負荷、異なるサーバーPCケースの選択

シンプルに考えよう。.

  • トレーニングシステム
    • 何日も何週間もかかる長い仕事だ。.
    • 重い数学、大きなデータセットが常にストリーミングされている。.
    • 目標:エポックをより速く終了させ、GPUからすべてのビットを絞り出す。.
  • 推論システム
    • 短いリクエスト、多くのユーザー。.
    • ひとつひとつのコールは小さいが、QPSは高い。.
    • 目標:低遅延、安定したSLA、優れたリクエスト単価。.

そのため、同じデザインをすることはほとんどない。 コンピューターケースサーバー どちらもだ:

  • トレーニングの希望 高密度GPUノード 奥行きのあるラックケース、高いエアフロー、クレイジーなパワーバジェット。.
  • 推論はしばしば よりスリムな1U/2Uノード あるいはエッジボックスでさえも、多くの現場で展開しやすい。.

データ・センター、アルゴリズム・センター、大企業、ITサービス・プロバイダー、さらには趣味の開発者のような顧客にとって、この違いは日々のO&M生活に打撃を与える。熱アラーム、ノイズの多いギア、サービスしにくいボックス、ケーブルのジャングル...すべては間違ったシャーシの選択から始まる。.


AI推論システムとトレーニングシステムのシャーシ選択 その違いとは 4

サーバーラックPCケースのGPU密度と熱設計

トレーニングの話といえば GPU密度 そして サーマルエンベロープ 第一に.
シャシーは書類上のスペックに合格するだけでなく、それに耐えなければならない。.

トレーニングシステム:多数のGPU、サーバーラックPCケース内の高熱

典型的なトレーニングノード:

  • 4-8個のフルレングス、フルハイトGPU。.
  • 非常に深い サーバーラックPCケース, 多くの場合、4U以上である。.
  • 前方から後方への高風量、ファンウォール、おそらくリキッド対応。.
  • ライザーカードやケーブルの内部レイアウトをきれいにしないと、エアフローを自ら破壊することになります。.

シャシーが提供しなければならないもの

  • 強力なフロントインテーク、中央の大きなファンウォール、すべてのGPUを横切る直線的なエアトンネル。.
  • 大型PSUと銅のためのスペース。.
  • 剛性の高い構造。 GPUサーバーケース レールは重く、曲がっては困る。.

そこで、専門の ラックマウントケース のようなメーカーから IStoneCase は理にかなっている。GPUの長さ、PCIeライザー、ケーブルの取り回しを設計する人が必要だ。.

推論システム:よりリーンなコンピュートと混合ワークロード

推論ノードはより多様である:

  • 1-2個のGPUと高速CPUを使うこともある。.
  • 純粋なCPUの場合もあるが、多くのメモリと高速NVMeを搭載している。.
  • エッジルームに設置する場合は、1U/2Uまたは奥行きの短いシャーシを使用することが多い。.

ここに箱がある:

  • よりスリムにすることは可能だが、それでもシングルGPUには指向性のあるエアフローが必要だ。.
  • 他の機器と統合するためには、もっとI/Oオプション(追加のNIC、シリアル、レガシーポートなど)が必要だ。.
  • 大きなDCだけでなく、小さなサイトがたくさんあるのだから、メンテナンスはもっと簡単なはずだ。.

コンパクト サーバーPCケース または ITXケース 優れたフロントI/Oとケーブル管理は、MSPや小規模ITチームの多くの悩みを解決します。.


トレーニング用シャーシと推論用シャーシ:主な違い

この表を社内資料や自分のデッキにドロップすることができる。.

アスペクトAIトレーニングシステムシャーシAI推論システム・シャーシ
主な目標最大スループット、より速いエポック終了低遅延、高QPS、安定したサービス
典型的なフォームファクター4U(またはそれ以上) コンピューターケースサーバー 奥行きの深いラック1U/2U、奥行きが短く、ウォールマウントまたはITXの場合もあります。
GPU数ノードあたり4-8個のハイパワーGPUGPUは0~2基、代わりに多数のライトノードを搭載することもある
気流大きなフロントインテーク、ファンウォール、厳密な前後エアフロー、おそらくリキッドループ対応より少ないホットスポットに集中したエアフロー、エッジのノイズとダストコントロール
パワー大容量電源、高ピーク消費、重いバスバーPSUは控えめで、効率と配線のしやすさを重視
収納レイアウトデータロードとチェックポイント用に多数のホットスワップベイを装備モデルウェイトとログ用の高速NVMe/M.2が少ない
ネットワークノード間の東西トラフィックに対応する複数の高速NIC南北トラフィック、ロードバランサー、エッジデバイス用にポートを増設
サービス性プロのDCチームが管理することが多く、MTTRが長くても許容されるファン、PSU、ディスクの高速スワップが必要。

AI推論システムとトレーニングシステムのシャシー選択 何が違うのか 1

コンピューターケースサーバー内部の電源、冷却、レイアウト

電力と冷却は、多くのプロジェクトが痛みを伴うところだ。.

トレーニングボックス大型PSU、醜いケーブル、もし設計が悪ければ

トレーニングのためだ:

  • PSUは大きくて重い。.
  • ケーブルは太い。.
  • GPUコネクターはすぐにスペースを食う。.

もしシャーシがPSUの位置やケーブルのチャンネルを計画していなければ、こうなる:

  • 空気の流れが妨げられる。.
  • VRM近くのホットスポット。.
  • 小さなアップグレードの後、サイドパネルを閉じるのが難しい。.

OEM/ODMビルダー IStoneCase を微調整することができる:

  • PSU位置(フロント、リア、デュアルPSU)
  • ケーブル配線穴とタイダウンポイント
  • PCIeライザー付近の余分なスペース

つまり、高密度の コンピューターケースサーバー は10回目のフィールド改造後も使用可能である。.

推論ボックス研究室だけでなく、実世界での冷却

推論ノードはこんなところにある:

  • ケーブルマネジメントが乱雑な小型オフィスラック。.
  • エッジクローゼットの冷温通路が悪い。.
  • 粉塵や振動のある小売業や工業の現場。.

ここで、シャーシはそうしなければならない:

  • より多くのダストフィルターを使用し、フロントパネルは簡単に掃除できる。.
  • より静かなファンをサポートするか、少なくともファンカーブチューニングを行う。.
  • 1Uであっても、高温になるGPU/CPUエリア周辺には明確な経路を確保してください。.

あなたは深さの短いものを選ぶかもしれない。 ATXサーバーケース ブランチラック用で、背面にはケーブル用の十分なスペースがあり、シンプルである。 シャーシガイドレール キットを使えば、数秒で箱を引き出せる。この小さなディテールが、O&Mチームをよりハッピーにする。.


AI推論システムとトレーニングシステムのシャーシ選択 何が違うのか 2

データセンターからエッジへ:ラックマウント、ウォールマウント、ITXサーバーケースの選択肢

すべての負荷が大きなデータセンターで実行されるわけではない。.
そこで、さまざまなシャシーファミリーが登場する。.

トレーニングおよびヘビーインファレンス用ラックマウントケース

ビッグデータセンターやアルゴリズムセンター向け:

  • 19″ ラックマウントケース がベースラインである。.
  • トレーニングノード用4Uディープシャーシ。.
  • 同じトップ・オブ・ラック・スイッチの下にある推論ノードの1U/2Uクラスタ。.

通常は組み合わせる:

  • 4UフォームファクターのGPUトレーニングボックス。.
  • 1U/2UのAPIノード、ゲートウェイ、データベース。.
  • 専用NASまたはJBODシャーシの共有ストレージ。.

IStoneCaseのようなベンダーは、重いケースと重いケースの両方を供給することができる。 GPUサーバーケース そして軽い サーバーラックPCケース ラックがすっきりして「同じ系列」に見えるように、同じフェースプレート・スタイルで、周囲のサービスに対応する。.

エッジ推論用ウォールマウント・デバイスとNASデバイス

中堅企業、小売業、スマートビルディング、さらには研究所にも:

  • ウォールマウントボックスはギアを床から離し、ホコリや “乱暴な蹴り ”を防ぐ。.
  • 小さい NASデバイス ローカルログ、ビデオ、テレメトリーを扱う。.
  • エッジ推論ノードはコンパクトな内部で実行される。 サーバーPCケース または NASデバイス シャーシにGPUを1基搭載。.

これによって得られるのは

  • カメラやセンサーから推論ノードまでの経路が短い。.
  • WANへの依存度が低い。.
  • 重い4Uをスライドさせることなくボックス全体に手が届くため、現場でのメンテナンスが簡単。.

開発者およびPOC向けのITXおよび小型フォームファクター

開発チームや技術愛好家は、小さくても本格的な箱が大好きだ:

  • Mini-ITXまたはmicro-ATXボード。.
  • まともなGPUが1つ。.
  • 机の下に座れるほど静かだ。.

よくできた ITXケース を使えば、ラックを一杯にすることなく、小さなデータセットで実際のトレーニングや現実的な推論ベンチマークを実行できる。その後、データセンターの規模を拡大する際には、ワークロードをより大きな サーバーラックPCケース をデザインした。.


IStoneCaseはどのようにAIトレーニングと推論シャーシプロジェクトをサポートするか

IStoneCaseの位置づけはこうだ:

"世界をリードするGPU/サーバーケースとストレージシャーシのOEM/ODMソリューションメーカー"

実際には、それはつまり

  • 標準的な GPUサーバー事例, サーバーケース, ラックマウントケース, ウォールマウントケース, NASデバイス, ITXケース そして シャーシガイドレール キッツ.
  • フロントパネルのカスタム、ベイの増設、PSUの配置の変更、奥行きの変更、独自のエアフロー、さらに特別な塗装なども、ご希望に応じて承ります。.

AIトレーニングプロジェクトでは、IStoneCaseは以下のことが可能です:

  • 深い4Uを提供 コンピューターケースサーバー マルチGPU、大型PSU、フロント・ツー・バック・エア用に調整されたオプション。.
  • 適切なGPU間隔とライザールーティングを維持し、サーマルスロットリングや信号の問題を回避します。.

特に大規模な推論展開のために:

  • スリムATXとショートデプス atxサーバーケース のデザインは、狭いラックや端の部屋にもフィットする。.
  • ウォールマウントとNASスタイルのシャーシは、「ラックはないがサーバーは必要」という頭痛の種を解決する。.
  • OEM/ODMオプションにより、多くの支店やパートナーに同じシャーシSKUを簡単に出荷できます。.

データセンター事業者であれ、データベース・サービス・プロバイダーであれ、研究機関であれ、小規模のITサービス・ショップであれ、シャーシは金属製だけではない。.
顧客が機器室に入ってきたときに、稼働時間、現場での作業量、そしてブランドイメージの本当の一部となる。.

GPUからレールキットまで、スタック全体がうまく機能するようになる。.

お問い合わせ

完全な製品ポートフォリオ

GPUサーバーケースからNASケースまで、あらゆるコンピューティングニーズに対応する幅広い製品を提供しています。

オーダーメイド・ソリューション

お客様独自の要件に基づき、カスタムサーバーケースやストレージソリューションを作成するOEM/ODMサービスを提供しています。

包括的サポート

当社の専門チームは、すべての製品のスムーズな納入、設置、継続的なサポートを保証します。