Alインテリジェントコンピューティングセンターのネットワークアーキテクチャ設計実践

FSコミュニティで原文を読む

従来のクラウド設定用のデータセンターネットワークは、通常、外部クライアントのニーズを優先するトラフィックパターンを念頭に置いて設計されています。この方向により、データセンターからエンドユーザーに向かうデータフローが主流になり、この方向の移動はしばしば南北トラフィックと呼ばれます。対照的に、クラウド内を横方向に移動するトラフィック（東西方向と呼ばれる）は、このモデルでは後回しにされます。それにもかかわらず、仮想プライベートクラウド（VPC）ネットワークを促進し、スマートコンピューティングタスクを支えるこの基本的なネットワークインフラストラクチャは、多くの困難に直面しています。

Al Intelligent Computing Center Network Architecture-1

ネットワークの輻輳：すべてのサーバーが同時にアウトバウンド・トラフィックを生成するわけではありません。ネットワーク構築コストを抑制するため、リーフスイッチのダウンリンクポートとアップリンクポートの帯域幅は1対1ではなく、収束比で設計されています。一般的に、アップリンクの帯域幅はダウンリンクの帯域幅の3分の1程度です。

内部クラウドトラフィックの遅延が大きい：異なるリーフスイッチをまたぐ2つのサーバー間の通信では、スパインスイッチを経由する必要があり、その結果、転送経路が3ホップになるため、さらに遅延が発生します。

帯域幅の制限：ほとんどの場合、1台の物理マシンにはVPCネットワークに接続するためのネットワークインターフェースカード（NIC）が1枚しか搭載されていません。単一のNICの帯域幅は比較的限られており、現在市販されているNICは通常200Gbpsを超えません。

インテリジェントコンピューティングのシナリオでは、インテリジェントコンピューティングのワークロードに対応するために、高帯域幅、低遅延、ロスレスという要件を満たす専用の高性能ネットワークを構築することが推奨されます。

高帯域幅設計

インテリジェントコンピューティングサーバーは、8枚のGPPUカードをフル装備でき、8つのPCIeネットワークカードスロットが確保されています。複数のマシンにまたがってGPU クラスタを構築する場合、2つのGPU間の通信のバースト帯域幅が50Gbpsを超えることがあります。そのため、各GPUに少なくとも100Gbpsのネットワークポートを関連付けるのが一般的です。このシナリオでは、各容量が2100Gbpsのネットワークカードを4枚、または各容量が1100Gbpsのネットワークカードを8枚構成することができます。或いは、200/400Gbpsの単一ポート容量を持つネットワークカード8枚を構成することもできます。

Al Intelligent Computing Center Network Architecture-2

ブロックのない設計

アンブロッキング・ネットワークデザインの鍵は、Fat-Treeアーキテクチャを採用することです。スイッチのダウンリンクとアップリンクの帯域幅は、1:1の非整合設計に従います。例えば、ダウンリンクにそれぞれ100Gbpsの帯域幅を持つポートが64個あれば、アップリンクにもそれぞれ100Gbpsの帯域幅を持つポートが64個存在します。

さらに、ノンブロッキング転送機能を備えたデータセンターグレードのスイッチを使用する必要があります。市場で入手可能な主流のデータセンタースイッチは、一般にフルポートのノンブロッキング転送機能を備えています。

低遅延設計：Al-Pool

低遅延ネットワーク・アーキテクチャ設計の観点から、Baidu Intelligent CloudはRail最適化に基づくAl-Poolネットワーク・ソリューションを実装、展開しています。このネットワークソリューションでは、8台のアクセススイッチがAA-Poolグループを形成しています。2レイヤースイッチネットワークアーキテクチャを例にとると、このネットワークアーキテクチャは、同じAl-Pool内の異なるインテリジェントコンピューティングノード間のワンホップ通信を実現します。

例えば、インテリジェント・コンピューティング・ノード1のRDMAポート1、インテリジェント・コンピューティング・ノード2のRDMAAポート1など、インテリジェント・コンピューティング・ノードP/2のRDIMAポート1までは、すべてスイッチに接続する必要があります。

各インテリジェントコンピューティングノード内では、上位層の通信ライブラリが、ノード上のネットワークトポロジーに基づいて、GPUカードと対応するネットワークポートを照合します。これにより、同じGPUカード番号を持つ2つのインテリジェント・コンピューティング・ノード間で、1ホップのみの直接通信が可能になります。

GPUカード番号が異なるインテリジェントコンピューティングノード間の通信では、NCCL通信ライブラリのRail Localテクノロジが、ホスト内のGPUS間のNVSwitchの帯域幅をフルに活用し、複数のマシン間のクロスカード通信を、マシンをまたいだ同じGPUカード番号間の通信に変換することができます。

Al Intelligent Computing Center Network Architecture-3

Al-PocIを介した2つの物理マシン間の通信では、アグリゲーション・スイッチを経由する必要があり、結果として3ホップ通信となります。

ネットワークがサポートできるGPUのスケーラビリティは、使用するスイッチのポート密度とネットワークアーキテクチャに関連します。ネットワークの階層化が進むにつれて、より多くの GPU カードに対応できますが、転送のホップ数とレイテンシも増加します。したがって、実際のビジネス要件に基づいてトレードオフを行う必要があります。

2レベルのファットツリーアーキテクチャ

8台のアクセススイッチが、Al-Poolと呼ばれるインテリジェントなコンピューティング・リソース・プールを形成します。図中、Pは1台のスイッチのポート数を表します。各スイッチは最大P/2個のダウンリンクポートとP/2個のアップリンクポートを持つことができ、1台のスイッチで最大P/2台のサーバとP/2台のスイッチに接続できることになります。2レベルのFat-Treeネットワークは、合計P*P/2枚のGIPUカードを収容できます。

3レベルのファットツリーアーキテクチャ

3レベルのネットワークアーキテクチャでは、さらにアグリゲーションスイッチグループとコアスイッチグループがあります。各グループの最大スイッチ数はP/2です。アグリゲーションスイッチグループの最大数は8、コアスイッチグループの最大数はP/2です。3レベルFat-Treeネットワークは、合計P*(P/2)(P/2) = PP*P/4 GPUカードを収容できます。

3レベルFat-Treeネットワークの場合、InfiniBand 40ポート200Gbps HDRスイッチは最大16,000GPUSに対応できます。この16,000 GPUカードという規模は、現在中国でInfiniBandを使用したGPU クラスタとしては最大規模のネットワークであり、Baiduが現在の記録を保持しています。

Al Intelligent Computing Center Network Architecture-4

2レベルと3レベルのファットツリーネットワークアーキテクチャの比較

収容可能なGPUカードの規模

2レベルファットツリーと3レベルファットツリーの最も大きな違いは、GPUカードの収容能力にあります。下図で、NはGPUカードの規模、Pは1台のスイッチのポート数を表しています。例えば、40ポートのスイッチの場合、2層Fat-Treeアーキテクチャは800枚のGPUカードを収容でき、3層Fat-Treeアーキテクチャは16,000枚のGPUカードを収容できます。

Al Intelligent Computing Center Network Architecture-5

転送パス

2レベルFat-Treeネットワークアーキテクチャと3レベルFat-Treeネットワークアーキテクチャのもう1つの違いは、2つのノード間のネットワーク転送パスのホップ数です。

2レベルFat-Treeアーキテクチャでは、同じインテリジェント・コンピューティング・リソース・プール（Al-Pool）内で、同じGPUカード番号を持つノード間の転送パスは1ホップです。異なるGPUカード番号を持つノード間の転送パスは、インテリジェント・コンピューティング・ノード内でRail Local最適化を行わない場合、3ホップとなります。

3レベルFat-Treeアーキテクチャでは、同じインテリジェント・コンピューティング・リソース・プール（AI-Pool）内で、同じGPUカード番号を持つノード間の転送パスは3ホップです。異なるGPUカード番号を持つノード間の転送パスは、インテリジェント・コンピューティング・ノード内でRail Local最適化を行わない場合、5ホップとなります。

Al Intelligent Computing Center Network Architecture-6

AI HPCネットワークアーキテクチャの典型例

現在成熟している商用スイッチに基づき、InfiniBand/RoCEスイッチのさまざまなモデルとGPUSのサポート規模を考慮して、物理ネットワークアーキテクチャのいくつかの仕様を推奨します。

通常：InfiniBand HDRスイッチをベースとしたInfiniBand 2層Fat-Treeネットワーク・アーキテクチャ、1クラスタで最大800GPUカードをサポートします。

Large：128ポートの100GデータセンターイーサネットスイッチをベースとしたRoCE 2層Fat-Treeネットワークアーキテクチャで、1クラスタで最大8192枚のGPUカードをサポートします。

XLarge：InfiniBand HDRスイッチをベースとしたInfiniBand 3層Fat-Treeネットワークアーキテクチャで、単一クラスタ内で最大16,000枚のGPUカードをサポートします。

XXLarge：InfiniBand Quantum-2スイッチまたは同等性能のイーサネットデータセンタースイッチをベースとし、3層Fat-Treeネットワークアーキテクチャを採用、単一クラスタで最大100,000枚のGPUカードをサポートします。

Al Intelligent Computing Center Network Architecture-7

同時に、効率的なデータ伝送と処理のためには、高速ネットワーク接続が不可欠です。

FSは、AIモデルのネットワーク展開の要件を満たす高品質な接続製品を提供します。FSの製品ラインナップには、（200G、400G）InfiniBandスイッチ、データセンタースイッチ（10G、40G、100G、400G）ネットワークカード、（10/25G、40G、50/56G、100G）光モジュールが含まれており、AIモデルのトレーニングと推論プロセスを加速できます。光モジュールは、高帯域幅、低遅延、低エラーレートを提供し、データセンターネットワークの機能を強化し、より高速で効率的なA-コンピューティングを可能にします。FSの接続製品を選択することで、ネットワーク性能を最適化し、大規模なAIモデルの展開と運用をサポートすることができます。