siennaxu’s blog

ここで通信分野と関連する記事を紹介していきます! よろしくお願いいたします。

Alインテリジェントコンピューティングセンターのネットワークアーキテクチャ設計実践

FSコミュニティで原文を読む

従来のクラウド設定用のデータセンターネットワークは、通常、外部クライアントのニーズを優先するトラフィックパターンを念頭に置いて設計されています。この方向により、データセンターからエンドユーザーに向かうデータフローが主流になり、この方向の移動はしばしば南北トラフィックと呼ばれます。対照的に、クラウド内を横方向に移動するトラフィック(東西方向と呼ばれる)は、このモデルでは後回しにされます。それにもかかわらず、仮想プライベートクラウドVPC)ネットワークを促進し、スマートコンピューティングタスクを支えるこの基本的なネットワークインフラストラクチャは、多くの困難に直面しています。

Al Intelligent Computing Center Network Architecture-1

ネットワークの輻輳:すべてのサーバーが同時にアウトバウンド・トラフィックを生成するわけではありません。ネットワーク構築コストを抑制するため、リーフスイッチのダウンリンクポートとアップリンクポートの帯域幅は1対1ではなく、収束比で設計されています。一般的に、アップリンク帯域幅はダウンリンクの帯域幅の3分の1程度です。

内部クラウドトラフィックの遅延が大きい:異なるリーフスイッチをまたぐ2つのサーバー間の通信では、スパインスイッチを経由する必要があり、その結果、転送経路が3ホップになるため、さらに遅延が発生します。

帯域幅の制限:ほとんどの場合、1台の物理マシンにはVPCネットワークに接続するためのネットワークインターフェースカード(NIC)が1枚しか搭載されていません。単一のNIC帯域幅は比較的限られており、現在市販されているNICは通常200Gbpsを超えません。

インテリジェントコンピューティングのシナリオでは、インテリジェントコンピューティングのワークロードに対応するために、高帯域幅、低遅延、ロスレスという要件を満たす専用の高性能ネットワークを構築することが推奨されます。

帯域幅設計

インテリジェントコンピューティングサーバーは、8枚のGPPUカードをフル装備でき、8つのPCIeネットワークカードスロットが確保されています。複数のマシンにまたがってGPUクラスタを構築する場合、2つのGPU間の通信のバースト帯域幅が50Gbpsを超えることがあります。そのため、各GPUに少なくとも100Gbpsのネットワークポートを関連付けるのが一般的です。このシナリオでは、各容量が2100Gbpsのネットワークカードを4枚、または各容量が1100Gbpsのネットワークカードを8枚構成することができます。或いは、200/400Gbpsの単一ポート容量を持つネットワークカード8枚を構成することもできます。

Al Intelligent Computing Center Network Architecture-2

ブロックのない設計

アンブロッキング・ネットワークデザインの鍵は、Fat-Treeアーキテクチャを採用することです。スイッチのダウンリンクとアップリンク帯域幅は、1:1の非整合設計に従います。例えば、ダウンリンクにそれぞれ100Gbpsの帯域幅を持つポートが64個あれば、アップリンクにもそれぞれ100Gbpsの帯域幅を持つポートが64個存在します。

さらに、ノンブロッキング転送機能を備えたデータセンターグレードのスイッチを使用する必要があります。市場で入手可能な主流のデータセンタースイッチは、一般にフルポートのノンブロッキング転送機能を備えています。

低遅延設計:Al-Pool

低遅延ネットワーク・アーキテクチャ設計の観点から、Baidu Intelligent CloudはRail最適化に基づくAl-Poolネットワーク・ソリューションを実装、展開しています。このネットワークソリューションでは、8台のアクセススイッチがAA-Poolグループを形成しています。2レイヤースイッチネットワークアーキテクチャを例にとると、このネットワークアーキテクチャは、同じAl-Pool内の異なるインテリジェントコンピューティングノード間のワンホップ通信を実現します。

例えば、インテリジェント・コンピューティング・ノード1のRDMAポート1、インテリジェント・コンピューティング・ノード2のRDMAAポート1など、インテリジェント・コンピューティング・ノードP/2のRDIMAポート1までは、すべてスイッチに接続する必要があります。

各インテリジェントコンピューティングノード内では、上位層の通信ライブラリが、ノード上のネットワークトポロジーに基づいて、GPUカードと対応するネットワークポートを照合します。これにより、同じGPUカード番号を持つ2つのインテリジェント・コンピューティング・ノード間で、1ホップのみの直接通信が可能になります。

GPUカード番号が異なるインテリジェントコンピューティングノード間の通信では、NCCL通信ライブラリのRail Localテクノロジが、ホスト内のGPUS間のNVSwitchの帯域幅をフルに活用し、複数のマシン間のクロスカード通信を、マシンをまたいだ同じGPUカード番号間の通信に変換することができます。

Al Intelligent Computing Center Network Architecture-3

Al-PocIを介した2つの物理マシン間の通信では、アグリゲーション・スイッチを経由する必要があり、結果として3ホップ通信となります。

ネットワークがサポートできるGPUのスケーラビリティは、使用するスイッチのポート密度とネットワークアーキテクチャに関連します。ネットワークの階層化が進むにつれて、より多くの GPU カードに対応できますが、転送のホップ数とレイテンシも増加します。したがって、実際のビジネス要件に基づいてトレードオフを行う必要があります。

2レベルのファットツリーアーキテクチャ

8台のアクセススイッチが、Al-Poolと呼ばれるインテリジェントなコンピューティング・リソース・プールを形成します。図中、Pは1台のスイッチのポート数を表します。各スイッチは最大P/2個のダウンリンクポートとP/2個のアップリンクポートを持つことができ、1台のスイッチで最大P/2台のサーバとP/2台のスイッチに接続できることになります。2レベルのFat-Treeネットワークは、合計P*P/2枚のGIPUカードを収容できます。

3レベルのファットツリーアーキテクチャ

3レベルのネットワークアーキテクチャでは、さらにアグリゲーションスイッチグループとコアスイッチグループがあります。各グループの最大スイッチ数はP/2です。アグリゲーションスイッチグループの最大数は8、コアスイッチグループの最大数はP/2です。3レベルFat-Treeネットワークは、合計P*(P/2)(P/2) = PP*P/4 GPUカードを収容できます。

3レベルFat-Treeネットワークの場合、InfiniBand 40ポート200Gbps HDRスイッチは最大16,000GPUSに対応できます。この16,000 GPUカードという規模は、現在中国でInfiniBandを使用したGPUクラスタとしては最大規模のネットワークであり、Baiduが現在の記録を保持しています。

Al Intelligent Computing Center Network Architecture-4

2レベルと3レベルのファットツリーネットワークアーキテクチャの比較

収容可能なGPUカードの規模

2レベルファットツリーと3レベルファットツリーの最も大きな違いは、GPUカードの収容能力にあります。下図で、NはGPUカードの規模、Pは1台のスイッチのポート数を表しています。例えば、40ポートのスイッチの場合、2層Fat-Treeアーキテクチャは800枚のGPUカードを収容でき、3層Fat-Treeアーキテクチャは16,000枚のGPUカードを収容できます。

Al Intelligent Computing Center Network Architecture-5

転送パス

2レベルFat-Treeネットワークアーキテクチャと3レベルFat-Treeネットワークアーキテクチャのもう1つの違いは、2つのノード間のネットワーク転送パスのホップ数です。

2レベルFat-Treeアーキテクチャでは、同じインテリジェント・コンピューティング・リソース・プール(Al-Pool)内で、同じGPUカード番号を持つノード間の転送パスは1ホップです。異なるGPUカード番号を持つノード間の転送パスは、インテリジェント・コンピューティング・ノード内でRail Local最適化を行わない場合、3ホップとなります。

3レベルFat-Treeアーキテクチャでは、同じインテリジェント・コンピューティング・リソース・プール(AI-Pool)内で、同じGPUカード番号を持つノード間の転送パスは3ホップです。異なるGPUカード番号を持つノード間の転送パスは、インテリジェント・コンピューティング・ノード内でRail Local最適化を行わない場合、5ホップとなります。

Al Intelligent Computing Center Network Architecture-6

 

AI HPCネットワークアーキテクチャの典型例

現在成熟している商用スイッチに基づき、InfiniBand/RoCEスイッチのさまざまなモデルとGPUSのサポート規模を考慮して、物理ネットワークアーキテクチャのいくつかの仕様を推奨します。

通常:InfiniBand HDRスイッチをベースとしたInfiniBand 2層Fat-Treeネットワーク・アーキテクチャ、1クラスタで最大800GPUカードをサポートします。

Large:128ポートの100GデータセンターイーサネットスイッチをベースとしたRoCE 2層Fat-Treeネットワークアーキテクチャで、1クラスタで最大8192枚のGPUカードをサポートします。

XLarge:InfiniBand HDRスイッチをベースとしたInfiniBand 3層Fat-Treeネットワークアーキテクチャで、単一クラスタ内で最大16,000枚のGPUカードをサポートします。

XXLarge:InfiniBand Quantum-2スイッチまたは同等性能のイーサネットデータセンタースイッチをベースとし、3層Fat-Treeネットワークアーキテクチャを採用、単一クラスタで最大100,000枚のGPUカードをサポートします。

Al Intelligent Computing Center Network Architecture-7

同時に、効率的なデータ伝送と処理のためには、高速ネットワーク接続が不可欠です。

FSは、AIモデルのネットワーク展開の要件を満たす高品質な接続製品を提供します。FSの製品ラインナップには、(200G、400G)InfiniBandスイッチ、データセンタースイッチ(10G、40G、100G、400G)ネットワークカード、(10/25G、40G、50/56G、100G)光モジュールが含まれており、AIモデルのトレーニングと推論プロセスを加速できます。光モジュールは、高帯域幅、低遅延、低エラーレートを提供し、データセンターネットワークの機能を強化し、より高速で効率的なA-コンピューティングを可能にします。FSの接続製品を選択することで、ネットワーク性能を最適化し、大規模なAIモデルの展開と運用をサポートすることができます。

OSW(光スイッチング)とは?

FSコミュニティで原文を読む

光スイッチング(OSW)は、光伝送ネットワークにおける重要な技術であり、高度なネットワーク内で光信号をダイナミックにルーティング・管理する手段を提供するものです。OSWの動作原理は、光信号の経路を正確に制御し、光通信システムにおける効率的で柔軟な伝送を保証します。この包括的な入門書は、OSWのさまざまなタイプ、機能、動作モード、利点を探求し、高性能光通信システムの形成におけるその重要性を強調しています。

OSWの種類

光スイッチング(OSW)は、光通信ネットワーク内の効率的なデータルーティングと伝送を促進する重要なコンポーネントで す。ここでは、最新の光システムのさまざまな要件を満たすために、いくつかの異なるタイプのOSWを紹介します:

電気光学スイッチ (EOS)

EOSは、光スイッチングの開始と制御を電気信号に依存しています。このタイプは応答時間が速く、迅速なデータ再ルーティングを必要とするアプリケーションに特に適しています。電子システムとのシームレスな統合により、全体的な運用効率が向上します。

マイクロ電気機械システム(MEMS)スイッチ

MEMSベースの光スイッチは、光路を正確に制御するための微細な機械要素を組み込んでいます。高信頼性と低挿入損失で有名なMEMSスイッチは、要求の厳しい光伝送セットアップに不可欠です。

レーザーダイオード半導体レーザー)

レーザーダイオードを活用したこのタイプの光スイッチは、高速かつ正確なスイッチング動作を保証します。迅速な応答時間と最小のクロストークで知られるレーザーダイオードスイッチは、スピードが最も重要なアプリケーションで極めて重要です。

バブル型光スイッチ

革新的な設計のバブル型光スイッチは、液体媒体中の気泡を利用して光信号をリダイレクトします。低消費電力とコンパクトなフォーム・ファクターで注目されるこのスイッチは、エネルギー効率の高い光ネットワーク・アーキテクチャに貢献します。

MEMSテクノロジー

光ファイバースイッチの最も一般的な実装は、MEMS技術を通じて実現さ れます。MEMSとはMicro-Electro-Mechanical Systemの略で、マイクロマシン、マイクロアクチュエータ、信号処理、制御回路を統合した大量生産可能なマイクロデバイスやシステムのことであります。マイクロメカニカル構造の準備プロセスには、フォトリソグラフィ、イオンビームエッチング、化学エッチング、ウェハボンディングなどが含まれます。MEMは、静電引力、電磁力、電歪、熱電対などの電子技術によって駆動されます。MEMSデバイスのすべての駆動機構の中で、静電引力構造は、その簡単な準備、簡単な制御、低消費電力のため、最も広く使用されています。

MEMS光スイッチは、シリコン結晶上に多数の微小なミラーを刻む構造で作ら れています。マイクロアレイを静電気力または電磁力によって回転させ、入力光の伝搬方向を変えることで、光路のオン・オフ機能を実現します。

MEMSベースの光スイッチは、マイクロスケールの機械部品を活用して光路を効率的に方向転換します。これらのスイッチは、光信号のルーティングをダイナミックに制御し、変化するネットワーク状況に対応した迅速かつ正確な調整を可能にします。MEMSベースの光スイッチの汎用性は、俊敏で高性能な光通信インフラを構築する上で不可欠なコンポーネントとして位置付けられています。

MEMSベースの光スイッチ

OSWの主な機能

光伝送の複雑な領域において、光スイッチング(OSW)の操作は、光信号の流れを正確かつ適応性をもって編成するための要として機能します。オペレーターは、光コントロールユニットまたは専用コントロールインターフェースを使用し、洗練されたコントロールプラットフォームを通してOSWシステムとのインタフェースを行います。このインタラクションの中で、オペレーターは光信号経路の複雑な詳細を指定し、リダイレクションの対象となる波長とそれに対応する目的地を綿密に指定します。

OSWの核心は、これらの指示をシステム内のダイナミックな調整に変換する能力にあります。特にMEMS(Micro-Electro-Mechanical Systems:微小電気機械システム)や電気光学機構などの先進技術が活躍します。マイクロスケールで動作するMEMSコンポーネントは、光路を物理的に操作することで制御信号に反応し、光信号の迅速な方向転換を可能にします。この精度の複雑な制御により、光信号が意図した経路をシームレスに通過することが保証され、光伝送ネットワークの全体的な効率が最適化さ れます。

OSWの応用

OSWは、様々な光通信シナリオにおいて重要なアプリケーションで見られます。波長分割多重WDM)システムでは、OSWは波長選択ルーティングを可能にし、帯域幅利用を最適化します。データセンターでは、俊敏なネットワーク再構成のためにOSWを活用し、サーバーとストレージエレメント間の効率的な接続を保証します。OSWのフォールトリカバリーメカニズムは、障害発生時に信号を迅速にリルートすることで、ネットワークの回復力に貢献します。さらに、OSWはマルチキャストとブロードキャストをサポートしており、ビデオストリーミングとコンテンツ配信に不可欠です。光クロスコネクト(OXC)の主要コンポーネントとして、OSWは大規模な光ネットワークにおける柔軟な接続を容易にします。その汎用性は、高速光パケットスイッチング、アダプティブネットワーク構成、次世代通信ネットワークの進化にまで及び、OSWは光伝送の展望を形作る上で極めて重要な存在となっています。

OSWのメリット

 

  • 1. ネットワークの柔軟性:OSWは光パスのダイナミックな再構成を可能にし、進化する通信ニーズをサポートし、変化するネットワーク需要に対応した効率的なリソース割り当てを促進します。

  • 2. レイテンシーの低減:OSWの高速スイッチング能力は、リアルタイム・データ伝送と応答性が要求されるアプリケーションにおいて極めて重要な信号遅延の最小化に貢献します。

  • 3. 信頼性と回復力:OSWは、障害回復メカニズムを提供し、中断や障害が発生しても継続的な通信を確保することで、ネットワークの信頼性を高めます。

  • 4. 高い拡張性:OSWのスケーラビリティ、特にMEMSベースのソリューションでは、コンパクトなフットプリント内に多数のスイッチを統合できるため、光ネットワークの成長に対応できます。

  • 5. エネルギー効率:MEMSベースの光スイッチは、多くの場合、低消費電力を示し、エネルギー効率の高い光通信システムに貢献し、ネットワーク運用による環境への影響を低減します。

結論

OSWは、現代の光通信システムにおいて、その適応性と不可欠性を示す基礎技術として浮上しています。様々なタイプの光スイッチが統合され、その多様な機能性と相まって、OSWが通信需要の高まる時代に光ネットワークの能力と性能を向上させる重要な原動力であり続けることを確実にしています。

GPUコンピューティングの基礎-2

FSコミュニティで原文を読む

大規模モデルのトレーニングは、できれば1サーバーあたり多数のGPUを搭載したマシンのクラスターで行われることが知られています。前回の記事「GPUコンピューティングの基礎-1」では、GPUネットワークにおける一般的な用語と概念を紹介しました。今回は、引き続き一般的なGPUアーキテクチャについて説明します。

8x NVIDIA A100 GPUノード/8x NVIDIA A800 GPUノード

標準的な8カードA100ホスト・ハードウェア・トポロジー

上記のA100 GPUトポロジー図に示されているように、8個のA100 GPUトポロジーには以下のコンポーネントが含まれます:

  • CPUチップ2枚(および両側の関連メモリ、NUMA):中央演算処理装置は、汎用コンピューティングタスクを担当します。

  • ストレージネットワークカード2枚(分散ストレージへのアクセス用、インバンド管理など):これらのネットワークカードは、分散ストレージへのアクセスに使用されています。

  • PCIe Gen4スイッチチップ4枚:PCIe Gen4はPCIeインターフェイスの第4世代で、より高速なデータ転送レートを提供します。

  • NVSwitchチップ6枚:NVSwitchは、大規模なディープラーニング・ノーデルや並列コンピューティング・タスクの効率的な運用に不可欠な、極めて高速なGPU間直接通信を容易にします。

  • GPU8個:A100 GPUは、並列化された計算を実行する主要な処理ユニットで、特にAIやディープラーニングのワークロードに適しています。

  • GPU専用ネットワークカード8枚:各GPUには専用のネットワークカードがあり、GPU間の通信を最適化し、並列処理タスクの全体的なパフォーマンスを向上させます。

これらの構成要素については、以下のセクションで詳しく説明します。

次の図は、参考のためにより詳細なトポロジー情報を示しています。

NVIDIA DGX A100ホスト(公式8カードマシン)のハードウェアトポロジー

ストレージ・ネットワークカード

GPUアーキテクチャにおけるストレージネットワークカードの位置付けは、主にPCIeバスを介した中央処理装置(CPU)への接続と、分散ストレージシステムとの通信を促進する役割を担っています。以下は、GPUアーキテクチャにおけるストレージネットワークカードの主な目的です:

  • 分散ストレージデータの読み書き ストレージ・ネットワーク・カードの主な機能の1つは、分散ストレージ・システムからのデータの読み書きを効率的に行うことです。これは、分散ストレージからトレーニングデータに頻繁にアクセスし、トレーニング結果をチェックポイント・ファイルに書き込むことが不可欠な、ディープラーニング・モデルのトレーニング・プロセスにおいて極めて重要です。

  • ノード管理タスク:ストレージ・ネットワーク・カードはデータ転送に限らず、ノード管理タスクも含まれています。これには、SSH(Secure Shell)によるリモート・ログイン、システム・パフォーマンスの監視、関連データの収集などのタスクが含まれます。これらのタスクは、GPUクラスタの運用状態の監視と維持に貢献します。

公式にはBF3 DPUが推奨されているが、実際には帯域幅の要件を満たす限り、代替ソリューションを選択することができます。例えば、費用対効果を考えるのであればRoCEを、性能を最大化するのであればInfiniBandを選択することが推奨されます。

NVSwitch ファブリック

フルメッシュネットワークトポロジでは、各ノードは他のすべてのノードに直接接続されています。通常、8個のGPUが、NVSwitchファブリックとも呼ばれる6個のNVSwitchチップを介してフルメッシュ構成で接続されます。

フルメッシュ構造では、各ラインの帯域幅は、n * bw-per-nvlink-laneで表されるNVLinkレーンあたりの帯域幅に依存します。1レーンあたり50GB/秒の帯域幅を持つNVLink3テクノロジーを利用するA100 GPUの場合、フルメッシュ構造における各ラインの合計帯域幅は、12 * 50GB/s = 600GB/秒となります。この帯域幅は双方向であり、データ送受信の両方をサポートするため、単方向の帯域幅は300GB/秒になることに注意する必要があります。

対照的に、A800 GPUはNVLinkレーン数を12から8に減らしています。その結果、フルメッシュ構造では、各ラインの合計帯域幅は8 * 50GB/s = 400GB/sとなり、一方向帯域幅は200GB/sとなります。

以下は、8*A800マシンのnvidia-smiトポロジーです。

8*A800マシン用nvidia-smiトポロジー

    • GPU間の接続(左上領域):

すべてNV8と表記され、8つのNVLink接続を表しています。

    • NICコネクタ:

同じCPUダイ上にある:NUMAを横断する必要はないが、PCIeスイッチチップを横断する必要があることを表しています。

異なるCPUダイ上: SYSと指定され、NUMAをトラバースする必要があることを表しています

同じCPUダイ上で、同じPCIeスイッチチップの下にある:NODEとして識別され、PCIeスイッチチップのみを交差させる必要があることを表しています。

同じCPUダイ上にあるが、同じPCIeスイッチチップの下にはない: NNODEとして指定され、PCIeスイッチチップとPCIeホストブリッジの両方を横断する必要があることを表しています。

異なるCPUダイ上:NUMA、PCIeスイッチチップを横断し、最長距離をカバーする必要があることを表しています。

IDC GPU ファブリック

次の図は、GPUノードの相互接続アーキテクチャを示しています:

GPUノード相互接続アーキテクチャ

コンピュート・ネットワーク

コンピュート・ネットワークは、主にGPUノード間の接続に使用され、並列コンピューティング・タスクの連携をサポートします。これには、複数のGPU間でのデータ転送、計算結果の共有、大規模並列計算タスクの実行調整などが含まれます。

ストレージ・ネットワーク

ストレージ・ネットワークはGPUノードとストレージ・システムを接続するために使用され、大規模データの読み書きをサポートします。これには、ストレージシステムからGPUメモリへのデータのロードや、計算結果のストレージシステムへの書き戻しが含まれます。

AIに求められる高性能を実現するためには、RDMA(Remote Direct Memory Access)がコンピュート・ネットワークとストレージ・ネットワークの両方に不可欠です。2つのRDMAテクノロジーから選択 RoCEv2とInfiniBandの2つのRDMA技術の選択には、費用対効果と優れた性能のトレードオフが含まれ、各オプションは特定のユースケースと予算の考慮事項に対応しています。

パブリック・クラウドサービス・プロバイダーは、8台のGPUインスタンスにそれぞれ8 * 100Gbpsを搭載したCX構成のように、RoCEv2ネットワークを構成に利用することが多いのです。他のオプションと比較すると、RoCEv2 は、性能要件を満たしていれば、比較的コスト効率に優れています。

RoCEとInfinibandの違いについては、InfiniBand vs. RoCE: AIデータセンターのネットワークを選択する方法をご覧ください。

データリンク接続における帯域幅ボトルネック

シングルマシン8カードA100 GPUホスト帯域幅ボトルネック解析

この図では、主要リンクの帯域幅仕様を紹介しています:

  • 同一ホスト上のGPU間の通信:NVLinkを利用することで、双方向の帯域幅は600GB/秒を達成し、一方向の帯域幅は300GB/秒に達します。

  • 同一ホスト上のGPUとそれぞれのネットワークインターフェイスカード(NIC)間の通信:PCIe Gen4スイッチチップを使用し、双方向帯域幅は64GB/秒、一方向帯域幅は32GB/秒に達します。

  • 異なるホスト間のGPU間の通信: データ転送はNICに依存し、帯域幅は使用するNICに依存します。現在、中国のA100/A800モデルで一般的に使用されているNICの主流帯域幅は、片方向で100Gbps(12.5GB/秒)です。そのため、ホスト間通信はホスト内通信に比べてパフォーマンスが大幅に低下することになります。

200Gbps (25GB/s) はPCIe Gen4の一方向帯域幅に近い値を示します。

400Gbps(50GB/秒)はPCIe Gen4の一方向帯域幅を上回ります。

したがって、このタイプの構成で400Gbps NICを使用しても、400Gbps帯域幅を完全に利用するにはPCIe Gen5の性能が必要なため、大きなメリットは得られません。

8x NVIDIA H100/8x NVIDIA H800ホスト

H100ホスト内のハードウェアトポロジー

H100ホストの全体的なハードウェアトポロジーは、A100 8カードマシンとよく似ていますが、主にNVSwitchチップの数と帯域幅のアップグレードに見られます。

H100ホスト内のハードウェアトポロジー

  • 各H100ホスト内には4つのチップがあり、A100構成より2つ数が少ないのです。

  • H100チップは4ナノメートルプロセスで製造され、最下段に18個のGen4 NVLink接続を備え、双方向合計900GB/秒の帯域幅を提供します。

H100 GPUチップ

シングルチップH100 GPU内部論理レイアウト

  • このチップは、最先端の4ナノメートル・プロセスで製造されており、高度な製造技術を示しています。

  • チップの最下段は18個のGen4 NVLink接続で構成され、18レーン×25GB/レーン=900GB/秒の双方向総帯域幅を提供します。

  • 中央の青い部分がL2キャッシュで、一時データの保存に使われる高速キャッシュです。

  • チップの左側と右側には、グラフィックス・メモリとして機能するHBMチップが搭載されており、グラフィックス処理に必要なデータを格納します。

ネットワーキング

ネットワークに関しては、H100はA100に似ているが、唯一の違いは、標準構成に400GbpsのCX7ネットワークカードが含まれていることです。

GPUコンピューティングの基礎-1

FSコミュニティで原文を読む

大規模モデルトレーニングの領域では、多くの場合、8 A100、A800、H100、またはH800のようなモデルを搭載し、場合によっては{4, 8}のような今後のモデルを組み込んだ、シングルマシン8GPUユニットで構成されるクラスタが基盤となっています。L40S のようなモデルを組み込むことも可能です。以下は、8個のA100 GPUを搭載した典型的なホスト内のGPUコンピューティングのハードウェアトポロジーを示しています:

GPUコンピューティングのハードウェアトポロジー

この記事では、描かれた図に基づき、基本的な概念と用語を掘り下げて説明します。

PCIe スイッチチップ

高性能GPUコンピューティングの領域では、CPU、メモリモジュール、NVMeストレージ、GPU、ネットワークカードなどの重要な要素が、PCIe(Peripheral Component Interconnect Express)バスまたは専用のPCIeスイッチチップを介して流動的な接続を確立します。

Gen5を最新とする5世代の進化を誇るPCIeは、デバイス間の効率的な相互接続性を保証します。この継続的な進化は、高性能コンピューティングの形成、データ転送速度の向上、最新のコンピューティング・クラスタにおける相互接続デバイスのシームレスな連携の促進において、PCIeが重要な役割を担っていることを強調しています。

NVLinkの定義

NVLinkは、Nvidiaが開発した高速、ワイヤベースのシリアルマルチレーン通信リンクで す。ウィキペディアにおけるNVLinkの定義は以下の通り:

NVLinkは、Nvidiaによって開発されたワイヤベースのシリアルマルチレーン近距離通信リンクで す。PCI Expressとは異なり、デバイスは複数のNVLinkで構成することができ、デバイスは中央ハブの代わりにメッシュネットワーキングを使用して通信します。このプロトコルは2014年3月に初めて発表され、独自の高速信号相互接続(NVHS)を使用しています。

この技術は、同一ノード上のGPU間のフルメッシュ相互接続をサポートし、複数の世代を経て進化しており、ハイパフォーマンス・コンピューティング・アプリケーションの性能を向上させるために双方向の帯域幅を強化しています。

下図に示すように、NVLinkは4世代をフォローしています。

NVLinkの進化:1/2/3/4世代

  • 接続方法:4チャンネル接続。

  • 帯域幅:最大160GB/秒の双方向総帯域幅を実現。

  • 目的:主にGPU間のデータ転送を高速化し、協調コンピューティングのパフォーマンスを向上させるために設計された。

  • 接続方法: 6チャンネル接続を採用。

  • 帯域幅:双方向の総帯域幅が300GB/sに向上。

  • パフォーマンスの向上:より高速なデータ転送を実現し、GPU間の通信効率を向上。

  • 接続方法: 18チャンネル接続を採用。

  • 帯域幅:双方向の総帯域幅が900GB/sにさらに向上。

  • パフォーマンス向上: チャネル数を増やすことで、より広い帯域幅を提供し、高性能コンピューティングや人工知能アプリケーションの高まる需要に対応します。

NVLink 1.0、NVLink 2.0、NVLink 3.0、NVLink 4.0の主な違いは、接続方法、帯域幅、性能にあります。

NVSwitch

NVSwitchはNVIDIAが開発したスイッチングチップで、ハイパフォーマンス・コンピューティングと人工知能アプリケーション向けに特別に設計されています。その主な機能は、同一ホスト内の複数のGPU間で高速かつ低レイテンシーの通信を提供することです。NVSwitchは、NVIDIAが開発したスイッチング・チップで、特にハイパフォーマンス・コンピューティングと人工知能アプリケーション向けに設計されています。その主な機能は、同一ホスト内の複数のGPU間で高速かつ低レイテンシーの通信を提供することです。

下図は、8カードA100ホストの典型的なハードウェア・トポロジーを示しています。

GPUコンピューティングのハードウェアトポロジー

下の写真は、Inspur NF5488A5 NVIDIA HGX A100 8 GPUアセンブリの側面図です。

写真では、A100の8つのピースが見え、右側の6つの厚いヒートシンクの下にNVSwitchチップがあります。

Inspur NF5488A5 NVIDIA HGX A100

NVLinkスイッチは、NVIDIAが開発した特殊なスイッチングデバイスで、異なるホスト間のGPUバイス間の高性能通信と接続を促進するように設計されています。単一のホスト内のGPUモジュールに統合されるNVSwitchとは異なり、NVLinkスイッチは、分散コンピューティング環境内のGPUをリンクするために特別に設計されたスタンドアロンのスイッチとして機能します。

NVLinkスイッチとNVSwitchを比較すると混乱するように聞こえるかもしれませんが、名前がスイッチを示唆しているように、実際にはNVSwitchはGPUモジュール上のスイッチングチップです。NVIDIAがこのチップを独立したスイッチとして開発し、NVLinkスイッチと正式に命名したのは2022年のことです。

HBM

従来、GPUメモリは、従来のDDR(Double Data Rate)メモリと同様に、マザーボードに物理的に挿入され、PCIeインターフェイスを介してプロセッサ(CPU、GPU)に接続されていました。Gen4の帯域幅は64GB/sで、Gen5では128GB/sに増加します。

この制限に対応するため、(NVIDIAに限らず)いくつかのGPUメーカーは革新的なアプローチを採用しました。複数のDDRチップを積み重ね、高帯域幅メモリ(HBM)として知られるものを形成し、GPUと統合するのです。H100に代表されるこの設計により、各GPUは専用メモリと接続する際にPCIeスイッチチップを通過する必要がなくなります。その結果、この戦略はデータ転送速度を大幅に向上させ、注目すべき桁違いの改善を達成する可能性があります。「高帯域幅メモリ」(HBM)という用語は、この先進的なメモリ・アーキテクチャを適切に表現しています。

HBMの進化:HBM 1からHBM3eへ

HBMの進化:HBM 1からHBM3eへ

帯域幅単位

大規模GPUコンピューティングレーニングの領域では、性能はデータ転送速度に直接かかっており、PCIe帯域幅、メモリ帯域幅、NVLink帯域幅、HBM帯域幅、ネットワーク帯域幅などのさまざまな経路と複雑に関係しています。これらのデータレートを測定する際には、さまざまな帯域幅単位が使用されます。

ネットワーキングの文脈では、データレートは一般的にビット/秒(b/s)単位で表され、送信と受信を区別するために単方向(TX/RX)で指定されることがよくあります。逆に、PCIe、メモリ、NVLink、HBM などの他のモジュールでは、帯域幅は通常、1 秒あたりのバイト数(B/s)または 1 秒あたりのトランザクション数(T/s)で表されます。これらの測定値は、多くの場合、アップストリームとダウンス トリームの両方のデータフローを考慮した双方向の総帯域幅を表しているこ とに注意することが重要です。

したがって、多様なコンポーネント帯域幅を比較・評価する場合、これらの単位を適切に見分け、変換することが極めて重要である。これにより、大規模GPUレーニング性能の最適化に不可欠なデータ転送能力を包括的に理解することができます。

Infiniband 技術に関するQ&A

FSコミュニティで原文を読む

ビッグデータ人工知能技術の進歩に伴い、高性能コンピューティングに対する需要は常に高まっています。この需要に応えるため、NVIDIA Quantum-2 InfiniBandプラットフォームは、高速かつ低遅延のデータ伝送と処理能力を可能にし、ユーザーに卓越した分散コンピューティング性能を提供します。

标签

以下、IB技術に関するよくあるQ&Aを挙げていきます。

Q:CX7 NDR200 QSFP112ポートは、HDR/EDRケーブルと互換性がありますか?

A:はい、互換性があります。

Q:CX7 NDRネットワークカードをQuantum-2 QM97XXシリーズスイッチに接続する方法は?

A:CX7 NDRネットワークカードは、NVIDIAの400GBASE-SR4または400GBASE-DR4光モジュールを使用し、QM97XXシリーズスイッチは、800GBASE-SR8(2x400GBASE-SR4相当)または800GBASE-DR8(2x400GBASE-DR4相当)光モジュールを使用します。これらのモジュールは、12芯マルチモードユニバーサル極性APC端面パッチコードを使用して接続します。

Q:CX7デュアルポート400Gは、ボンディングにより800Gを実現できますか?なぜ200Gで400Gを実現できるのか?

A:ネットワーク全体のパフォーマンスは、PCIe帯域幅ボトルネック、ネットワークカードの処理能力、物理的なネットワークポートの帯域幅などの要因によって決まります。CX7ネットワークカードのPCIe仕様は5.0 x16で、理論上の帯域幅制限は512Gbpsです。PCIe 5.0 x16の最大帯域幅の制限により、CX7ネットワークカードではデュアルポート400Gのハードウェアは使用できません。

Q:1対2のケーブルの接続方法は?

A:最適なパフォーマンスを得るには、1対2のケーブル(800Gから2X 400G)を2つの異なるサーバーに接続する必要があります。通常、GPUサーバーには複数のネットワークカードが搭載されているため、分岐ケーブルがイーサネットサーバーのネットワークカードに完全に接続されないようになります。

Q:InfiniBandのNDRシナリオでは、1対2のケーブルはどのように接続されるのですか?

A:InfiniBand NDR のシナリオでは、1対2ケーブルには2つのタイプがあります。一つ目のタイプは、MMS4X00-NS400 + MFP7E20-NXXX + MMS4X00-NS400(200G用にダウングレード)など、1対2のパッチコード(400Gを2x200Gに分割)と光モジュールを使用します。2つ目のタイプは、MCP7Y00-NXXXやMCP7Y10-NXXXなど、1対2のDACカッパーケーブル(800Gを2x400Gに分割)を使用します。

Q:Superpod ネットワークでは、各サーバー上の 4 枚の NDR200 カードを 1x 4 ケーブルで同じスイッチに直接接続できますか、それとも2本の 1x 2 ケーブルを使用して異なるスイッチに接続する必要がありますか?

A:Superpod ネットワークでは、各サーバーの 4 つの NDR200 ポートを 1 対 4 ケーブルで同じスイッチに接続することは推奨されません。この接続方法は Super Pod ネットワークルールに準拠していません。NCCL/SHARP の最適なパフォーマンスを確保するため、リーフスイッチは 1 対 4 ケーブルを使用して、異なるサーバの NDR200 ポートを特定のパターンで接続する必要があります。

Q:最新のSuperpodネットワークについては、Superpodネットワーク・ホワイトペーパーに記載されているように、コンピューティング・ネットワークにUFMソフトウェアを搭載した2台のIBスイッチを別々に構成する必要があります。しかし、この構成ではクラスタGPUノードが1つ少なくなってしまいます。別のUFMスイッチを設定せず、管理ノードのみにUFMソフトウェアを導入した場合、コンピューティングネットワークに影響を与えることなく、別のストレージネットワークでクラスタを管理できますか?

A:ソフトウェアを含む UFM 機器を構成することを推奨します。コンピューティングネットワーク内の管理ノードに UFM ソフトウェアをデプロイすることは代替ソリュー ションですが、GPU コンピューティングのワークロードを負担するべきではありません。ストレージネットワークは別個のネットワークプレーンとして独立して動作するため、コンピューティングクラスターの管理に使用することはできません。

Q:UFM エンタープライズ、SDN、テレメトリ、サイバーアルの違いは何ですか?UFMを購入する必要はありますか?

A:OFEDに含まれるopensmやコマンドスクリプトツールを使って簡単な管理や監視を行うことは可能ですが、UFMに適したグラフィカルユーザインタフェースや多くの機能がありません。

标签

Q:スイッチ、OFED、UFMで必要なサブネットマネージャの数に違いはありますか?お客様の導入にはどちらが適していますか?

A:スイッチ管理は、最大2Kノードまでのネットワークに適しています。UFMとOFEDのopenSMノード管理機能は無制限ですが、管理ノードのCPUとハードウェア処理能力との調整が必要です。

Q:64個の400Gbポートを持つスイッチに32個のOSFPポートがあるのはなぜですか?

A:この制約は、2Uパネルのサイズと消費電力の制限にあり、32個のケージしか収容できません。この構成は、2つの400GポートをサポートするOSFPインターフェイス用に設計されています。NDRスイッチでは、ケージとポートの概念を区別することが重要である。

Q:異なるインターフェイスを持つ2つのモジュールをケーブルで接続してデータを伝送することは可能ですか?例えば、サーバーのOSFPポートとスイッチのQSFP112ポートをケーブルで接続することは可能ですか?

A:モジュールの相互接続はパッケージングに依存しません。OSFP と QSFP112 は、主にモジュールの物理的なサイズを表します。イーサネット・メディア・タイプが同じであれば(リンクの両端が400G-DR4または400G-FR4など)、OSFPモジュールとQSFP112モジュールは相互に互換性があります。

Q:UFMはRoCEネットワークの監視に使えますか?

A:いいえ、UFMはInfiniBandネットワークしかサポートしていません。

Q:UFMの機能は、マネージド・スイッチとアンマネージド・スイッチで同じですか?

A:はい、機能は変わりません。

Q:伝送帯域幅レイテンシーに影響を与えずに、IBケーブルがサポートする最大伝送距離は?

A:光モジュール+ジャンパーは約500m、パッシブDACケーブルは約3m、アクティブACCケーブルは5mまで到達可能です。

Q:CX7ネットワークカードは、イーサネットモードでRDMAをサポートする他の400Gイーサネットスイッチに接続できますか?

A:400Gイーサネット接続の確立は可能であり、RDMA(RoCE)はこの状況下でも動作可能ですが、性能は保証されません。400Gイーサネットでは、BF3+Spectrum-4 で構成される Spectrum-X プラットフォームの使用を推奨します。

Q:NDRHDREDRと互換性がある場合、これらのケーブルやモジュールは一体型しかないのでしょうか?

A:HDRまたはEDRとの互換性を確保するために、通常OSFP-2xQSFP56 DAC/AOCケーブルが使用されます。

Q:OSFPネットワークカード側のモジュールはフラットモジュールであるべきですか?

A:ネットワークカードにはヒートシンクが付属しているので、ファットモジュールをそのまま使用することが可能です。フィン付きモジュールは主に液冷スイッチ側に採用されています。

Q:IBネットワークカードはイーサネットモードでRDMAをサポートしていますか?

A:RDMA over Ethernet(RoCE)を有効にすることができ、Nvidia Spectrum-Xソリューションの使用を推奨します。

Q:NDRAOCがないのはなぜですか?

A:OSFPモジュールは大きくて重いため、光ファイバーはダメージを受けやすい傾向があります。2分岐ケーブルなら3つの大きなトランシーバー端があり、4分岐ケーブルなら5つのトランシーバーがあるのです。このため、特に30メートルのAOCでは、敷設中にファイバーが破損するリスクが高まるわけです。

Q:光モジュールの違いを除けば、400G IBと400Gイーサネットのケーブルは同じですか?

A:光ケーブルも同じだが、端面は8度の角度に研磨されているAPCタイプであることに注意する必要があります。

Q:CX7ネットワークカードのレイテンシ性能に特定の要件はありますか?フルメモリやバインドコアなど、最適なデバッグ環境下でのネットワークレイテンシ要件は?許容可能なレイテンシ値とは、例えば何マイクロ秒以下ですか?

A:レイテンシ性能は、テストマシンの周波数や構成、perftestやMPIなどのテストツールに依存します。

Q:OSFPネットワークカード側のモジュールはOSFPフラットモジュールであるべきですか?なぜOSFP-Riding Heatsinkという記述があるのですか?

A:「Riding Heatsink(ライディング・ヒートシンク)」とは、ケージに組み込まれたヒートシンクのことです。

标签

Q:UFMはこのクラスターソリューションのどこに位置づけられるのか?その役割を理解したいと思います。

A:UFMはサーバー上で個別に動作し、ノードとして扱うことができます。2台のサーバを使用した高可用性をサポートします。ただし、計算ワークロードも処理するノードでUFMを実行することは推奨されません。

Q:UFMはどの規模のネットワーク・クラスターに適していますか?

A:UFMはOpenSubnet Manager (openSM)だけでなく、その他の強力な管理機能やインターフェイス機能を提供するため、すべてのInfiniBandネットワークにUFMを設定することをお勧めします。

Q:PCIe 5は512Gまでしかサポートしないのですか?PCIe 4はサポートされないのですか?

A:PCIe Gen5は最大32G x 16レーンを提供し、最大帯域幅は512Gとなります。一方、PCIe Gen4は最大16G x 16レーンを提供し、最大帯域幅は256Gとなります。

IBネットワークカードはシンプレックスモードとデュプレックスモードのどちらをサポートしていますか?

A:IBネットワークカードはすべてデュプレックスです。データを送受信する物理的なチャンネルはすでに分離されているため、シンプレックスかデュプレックスかは現在のデバイスの概念にすぎません。

Q:FSはIBネットワーククラスタ構築のための技術サポートと高品質な製品を提供できますか?

A:もちろん、FSはハイパフォーマンス・コンピューティングとデータセンター・ソリューションの提供を専門としています。IBネットワーク・クラスタ構築の豊富な経験と専門知識を持っており、さまざまな顧客のニーズに応えるため、さまざまなハードウェア接続ソリューションを提供しています。

FSのInfiniBandソリューションには、800G400G200G100G56/40Gの速度を持つAOC/DACケーブルとモジュール、NVIDIA InfiniBandアダプタNVIDIA InfiniBandスイッチが含まれます。IBネットワーク・クラスタ・ソリューションでは、FSの専門チームがお客様のニーズとネットワーク規模に基づいて適切なハードウェア接続ソリューションを提供し、ネットワークの安定性と高いパフォーマンスを確保します。

より詳しい情報とサポートについては、FS.COMをご覧ください。

2x 200G HDRスプリッターケーブルの利点と応用例

FSコミュニティで原文を読む

ハイパフォーマンス・コンピューティングやAIモデル・トレーニング用の大規模サーバー・クラスタは、最大限の計算能力を得るために8GPU設計を採用することが多いです。通信ネットワークをサポートするため、一般的には200GのIBカードが8枚採用されています。しかし、IB HDRスイッチケーブルのような高速、低レイテンシーロスレスのネットワーク機器を導入するコストは、サーバー・ノード数が100を超えると増大する。本稿では、大規模サーバークラスタにおける2x200G HDRスプリッターケーブルのメリットと用途についてご紹介いたします。

标签

2x 200G HDRスプリッターケーブルについて

2x 200G HDRスプリッターケーブル、特にFSが提供するQSFP-2Q200G-2QAO05ケーブルは、QSFP56 VCSEL技術をベースとしたアクティブ光スプリッタケーブルです。2x 200Gb/秒のデータ伝送が可能で、SFF-8665、RoHSSFF-8636規格に準拠しています。ケーブルの両端にはEEPROMが搭載されており、ホストシステムからアクセス可能な製品およびステータス監視情報を提供します。

标签

2x 200G HDRスプリッターケーブルの応用例

2x 200G HDRスプリッターケーブルの主な用途は、ファット・ツリー・トポロジーで200Gリーフ・スイッチとスパイン・スイッチを接続し、クロスコネクト機能を促進することです。これにより、下図に示すように、HDR InfiniBand QSFP56スイッチのポートを2xHDR100として動作させることができます。

标签

2x 200G HDRスプリッターケーブルの利点

ポートのアクセス容量の増加

1本の2x 200G HDRスプリッターケーブルで、2台のスパインスイッチと2台のリーフスイッチ間の完全な相互接続を実現し、従来のHDR100Gダイレクトケーブルと比較して最大アクセス容量を2倍にします。従来のケーブルでは、4本のケーブルが必要で、8つのデバイス・ポートを占有するため、ネットワークの拡張性が制限されていました。

标签

対照的に、2x 200G HDRスプリッターケーブルは、2層のファットツリーネットワークで最大200台の8GPUサーバーをサポートし、最大1600個の200Gポートのアクセス容量を提供します。

标签

ネットワークの拡張性

2x 200G HDRスプリッターケーブルを使用することで、Leaf1はたった1つのポートを使用して40のスパインと接続することができ、ネットワークのスケーラビリティを効果的に2倍にすることができます。対照的に、従来のHDR 200Gダイレクトケーブルでは、より多くのスイッチデバイスAOCケーブルで3層のファットツリーアーキテクチャが必要でした。

标签

コスト削減

HDR 200Gダイレクトケーブルによるネットワークと比較して、2x 200G HDRスプリッターケーブルを導入することで、必要なデバイス数を大幅に削減することができます。200台の8GPUサーバーをネットワーク化する場合、IBスイッチの台数は200台から120台に減少し、大幅なコスト削減につながります。

 

2x 200G HDRスプリッターケーブルは、大規模サーバークラスタに数多くの利点とアプリケーションを提供します。ポートアクセス容量の最大化、ネットワーク拡張性の拡大、コスト削減により、このケーブルはIBスイッチのネットワーク機能を強化し、ハイパフォーマンスコンピューティング、AIモデルトレーニング、その他の大規模コンピューティング環境にとって価値あるソリューションとなります。

InfiniBand 200Gbps QSFP56 DAC/AOCケーブル&光モジュールソリューション

急速に進化するデータセンターや人工知能の世界では、高速・低遅延・低消費電力のデータ伝送が不可欠となっています。FSは、様々なハイパフォーマンス・コンピューティング・シーンに合わせた多様なInfiniBandケーブルとモジュール/トランシーバ製品を提供しています。この記事では、FS 200G InfiniBand HDR AOCケーブル、DACケーブル、光モジュールの特長とアプリケーション環境を概説し、最新の進化を紹介します。

InfiniBand 200G QSFP56 AOC

InfiniBand 200G QSFP56 AOCケーブルは、光ファイバーと電子チップ技術をシームレスに統合し、高速伝送、長距離機能、低消費電力、堅牢な干渉防止、柔軟な設置などの利点を提供します。データ通信、データセンター、ハイパフォーマンス・コンピューティングに広く適用されているFSは、ダイレクトとブレークアウトの2種類のInfiniBand HDR AOCを提供しています。これらのAOCは、低消費電力、最小限の電磁干渉、効果的な放熱により、高い伝送信頼性を保証します。

HDR 200G QSFP56 - QSFP56 AOC

NVIDIA InfiniBand QSFP56 200G AOCケーブルは、QSFP56 VCSELをベースとしたアクティブ光ケーブルで、データセンター内のパッシブ銅ケーブルに比べて伝送距離を延長しています。1m、2m、3m、5m、10m、15m、20m、30m、50m、100mの長さがあり、200Gb/秒のInfiniBand HDRシステム用に設計されています。ホットプラグに対応したこれらのAOCは、設置や交換が容易で、より高いポート帯域幅、密度、コンフィギュレーションを低コストで提供します。ただし、両端にモジュールがあるため、キャビネット間の配線には適しておらず、通常30メートル未満の距離で使用されます。

InfiniBand QSFP56 200G AOC

HDR 200G QSFP56 - 2x 100G QSFP56 AOC

NVIDIA InfiniBand 200G QSFP56 - 2x100G QSFP56ブレークアウトAOCケーブルは、経済的な200Gb/s HDR - 2x100Gb/s HDR100アクティブ・ブレークアウトAOCで、QSFP56 VCSELをベースにしています。1mから30mまでの長さがあり、200Gポートと2つの100Gポート間の相互接続を容易にし、短距離相互接続のための効率的な接続性を提供します。このセットアップにより、より高いポート帯域幅、密度、コンフィギュレーションを低コストで実現し、データセンターの電力要件を低減することができます。200G QSFP56 - 2x100G QSFP56ブレークアウトAOC

HDR 2x 200G QSFP56 - 2x 200G QSFP56 AOC

NVIDIA InfiniBand 2x 200G QSFP56 - 2x 200G QSFP56ブレークアウトAOCケーブルは、QSFP56 VCSELをベースにしています。長さは3mから30mです。このブレイクアウトケーブルは、SFF-8665、SFF-8636、およびInfiniBand HDRに準拠しています。一方の端にある2つのQSFP56 200Gポートから、もう一方の端にある2つのQSFP56 200Gポートへの接続を提供し、ファットツリー・スパイン冗長性を備えたToR/リーフ・スイッチとスパイン・スイッチ間の接続に適しています。

2x 200G QSFP56 - 2x 200G QSFP56ブレークアウトAOC

接続環境

この図は、高帯域幅、低レイテンシ、高信頼性のInfiniBand接続方式を示しています。ブレークアウトAOCケーブルはリーフ・スイッチとHCAカードとストレージ・デバイスを搭載したGPUサーバを接続し、ダイレクトAOCケーブルはスパイン・スイッチに同レートで接続します。

AOC接続

InfiniBand 200G QSFP56 DAC

FSは、InfiniBand 200G QSFP56 DACケーブルを提供し、InfiniBandスイッチングネットワークにおける高速、低遅延の200G/HDR接続を実現するコスト効率の高いソリューションを提供します。NVIDIA GPUアクセラレートAIエンドツーエンドシステムの距離要件に対応するため、さまざまな長さをご用意しています。

HDR 200G QSFP56 - QSFP56 DAC

パッシブNVIDIA InfiniBand QSFP56 200G DACケーブルは、200Gb/秒InfiniBand HDR規格に準拠したダイレクトアタッチ銅製ケーブルです。8ペアの高速銅線で構成され、各ペアは最大 50Gb/s でデータを伝送でき、ケーブル長は 0.5m~2m です。

InfiniBand QSFP56 200G DACケーブル

HDR 200G QSFP56 - 2xQSFP56 DAC

The NVIDIA InfiniBand QSFP56 200G - QSFP56 2x100G DACケーブルは、200Gb/s InfiniBand HDR 規格に準拠して設計されたブレイクアウト・ケーブルです。200G HDR QSFP56 - QSFP56 DACと異なるこのDACケーブルは、一方の端で200G QSFP56ポートとの接続を確立し、もう一方の端で2つの100G QSFP56ポートに同時に接続できます。この構成により、高速データ伝送が容易になり、200Gから100Gへのギャップを埋めることができます。ケーブル長は0.5m、1m、1.5m、2mがあり、さまざまな導入シナリオに柔軟に対応できます。

QSFP56 200G - QSFP56 2x 100G DAC

有機能:

  • 各QSFP56ポートには、ホスト読み取り可能な製品情報を提供するEEPROMが搭載。

  • より高いポート帯域幅、密度、コンフィギュラビリティを実現する効率的な短距離相互接続を実現。

  • 低遅延、広帯域、低消費電力、優れた信頼性。

  • データセンター、人工知能、その他の分野、特に高速データ伝送を必要とする場面での応用。

接続環境

この図は、ToRスイッチとスイッチ/サーバー間の短距離接続にFS HDR InfiniBand DACケーブルを使用した場合を示しています。

HDR DAC接続1

HDR DAC接続2

InfiniBand HDR QSFP56光モジュール

200Gbase SR4 QSFP56

NVIDIA InfiniBand MMA1T00-HS 互換 QSFP56 200G SR4 光モジュールは、QSFP5フォームファクタMPO/MTP-12 UPC コネクタを採用し、200Gb/s InfiniBand 環境の短距離アプリケーション向けに設計されています。53Gb/s PAM4 850nm VCSELトランスミッタとPINレシーバを4チャネル搭載し、送信チャネルと受信チャネルの両方にCDRチップを内蔵、消費電力は5W以下です。このトランシーバーは、FECが有効なOM4マルチモード光ファイバケーブルで最大100mの伝送が可能です。

200G SR4 QSFP56

200Gbase FR4 QSFP56

NVIDIA InfiniBand MMS1W50-HM 互換 QSFP56 200G FR4 光モジュールは、200Gb/s HDR InfiniBand の中長距離アプリケーション用に設計されており、LCデュプレックスコネクタと QSFP56 フォームファクタを使用しています。非ポーリングEML CWDMトランスミッタを採用し、波長分割多重技術を使用して1つの光データストリームに多重化し、光デマルチプレクサを使用して受信側で4つの光データストリームにデマルチプレクスします。このトランシーバーは、1310nm OS2シングルモード・ファイバーで最大2kmの伝送が可能で、ファイバ配線コストを効果的に削減します。

200G FR4 QSFP56

HDR InfiniBandモジュールの使用環境

これらの光モジュールの具体的な用途は、各モジュールの異なる特徴や機能を考慮し、現在の環境の要件によって異なります。200G HDR SR4は、スイッチ-ネットワークカード間やスイッチ-スイッチ間接続のようなInfiniBand HDRバイス間の相互接続に適しており、伝送距離要件は30mから100mです。

200Gbase HDR FR4は、特に伝送距離500メートルから2キロメートルのネットワーク環境向けに設計されています。InfiniBandの中長距離システムに最適で、InfiniBandをリモートインフラやエッジまで拡張します。これにより、リモートのデータセンター間、またはデータセンターとリモートのストレージ・インフラ間のローカルかつ暗号化されたInfiniBand接続が可能になり、高可用性を促進します。

200G HDR SR4接続

結論

要約すると、FS HDR InfiniBand AOCケーブル、DACケーブル、光モジュールは、低遅延、広帯域、低消費電力、高信頼性を提供します。データセンター、人工知能、様々な分野で幅広く採用され、使用者から高い評価を得ています。

FAQ

Q1:InfiniBandケーブルはMellanox製以外のスイッチでも使用できますか?

FSは、HuasanやHuaweiなど、スイッチに相応の互換性がある限り、Mellanoxスイッチ以外のデバイスと互換性のあるInfiniBandケーブルを提供します。

Q2:イーサネットスイッチにInfiniBandケーブルは使用できますか?

FSが提供するInfiniBandケーブルはInfiniBandとEthernetの両方に対応していますが、EthernetケーブルはEthernetのみに対応しています。

Q3: HDR InfiniBandケーブルのレイテンシと帯域幅を教えてください。

FSが提供するInfiniBandケーブルのレイテンシは1.27μs、帯域幅は200Gbpsです。

Q4:200Gモジュールにはどのようなレーザーが使われていますか?

レーザーは2つのカテゴリーに分けられます: 直接変調(DML)と外部変調(EML)です。直接変調レーザーには、VCSEL、FP、DFBなどがあり、主に近距離や低出力シナリオ向けです。EMLレーザは、CWレーザとEAM変調器から構成され、高速または長距離シナリオに使用されます。

Q5: 200Gモジュールには何種類の変調方式がありますか?

2つの変調方式があります: PAM4変調とNRZ変調です。200G QSFP56は4x50G PAM4変調を採用し、200G QSFP-DDは8x25G NRZ変調を採用しています。