siennaxu’s blog

ここで通信分野と関連する記事を紹介していきます! よろしくお願いいたします。

データセンターネットワークに革命を起こす:800G光モジュールとNDRスイッチ

FSコミュニティで原文を読む

拡張モデル、クラウド・コンピューティングビッグデータ分析などのテクノロジーの進歩に伴い、データセンターは爆発的な成長期を迎えています。拡張モデルのトレーニングと展開に対するニーズの高まりにより、コンピューティング、ストレージ、ネットワーキングのサポートフレームワークに新たな課題が突きつけられています。GPT-4のような高度なディープラーニングモデルの出現、クラウドプラットフォーム上で管理される集中的なワークロード、大規模なデータ分析や高性能コンピューティングタスクの要件はすべて、迅速なサービスを提供できる堅牢なデータセンターネットワークを必要としています。

データセンターにおける高速ネットワークの構築には、高速ネットワークカード、光モジュレス、スイッチ、高性能ネットワーク相互接続技術など、複数の主要コンポーネントが必要です。この複雑なネットワーク・エコシステムの中で、InfiniBand(IB)ネットワーク技術は、高速データ転送と低遅延通信を実現する重要な手段となり、市場のリーダーとして台頭してきました。

InfiniBandネットワーク技術内のNDR(400G)デバイスは広く実装され、複雑なモデルや高性能コンピューティング要件に対応する高速データセンターネットワークの優れた選択肢として確立されています。スイッチの分野では、NVIDIAのQM9700シリーズとQM9790シリーズが代表的な機器です。NVIDIA Quantum-2アーキテクチャに基づいて構築されたこれらのスイッチは、標準的な1Uシャーシ内に64個のNDR 400Gb/秒InfiniBandポートを提供します。この画期的な技術は、1台のスイッチで毎秒51.2テラビット(Tb/s)の双方向帯域幅と、毎秒665億パケット(BPPS)を超える前例のない処理能力を提供することになります。

NVIDIA Quantum-2 InfiniBandスイッチは、そのNDR高速データ転送能力を超えて、広範なスループット、オンチップコンピューティング処理、高度なインテリジェント・アクセラレーション機能、適応性、頑丈な構造を取り入れています。これらの特性により、高性能計算(HPC)、人工知能、大規模なクラウドベースのインフラを含む分野での典型的な選択となっています。さらに、NDRスイッチの統合により、全体的な費用と複雑さを最小限に抑え、データセンターネットワーク技術の進歩と進化が促進されます。

QM9700とQM9790の違い

前世代のIBスイッチと同様に、NDRスイッチでは、QM9700はマネージドスイッチであり、QM9790はアンマネージドスイッチです。機能の違いは、マネージドスイッチが通常のイーサネットスイッチと同様のネットワークオペレーティングシステム(NOS)を実行することです。専用の管理ポートから直接アクセスして設定でき、サブネットマネージャーの機能を提供します(必要に応じて有効化)。一方、アンマネージドスイッチはハードウェアレベルでCPUを持たず、NOS6を実行しません。設定はmlxconfigというリモート設定ツールを通じて行われます。以下の画像は、QM9700(右端に管理インターフェイスがある)とQM9790を示しています。

VXLAN

両者には運用上の違いもあります。QM9700はマネージドスイッチであるため、コンフィギュレーション管理のための直接ログインが可能です。以下の例に示すように、コマンドを使用してポートとモジュールの情報をクリエできます。

  • ポート情報のクエリ:インターフェイスib 1/1/1を表示(例としてポート1/1/1を使用)します。

  • ポートモジュール情報のクエリ:インターフェイスib 1/1/1トランシーバを表示します。

  • ポートモジュールDDM(デジタル診断モニタリング)のクエリ:インターフェイスib 1/1/1トランシーバ診断を表示します。

非管理型QM9790の場合、構成管理は、接続されたサーバー(または別の管理型スイッチ)にログインして行います。次の手順でプロセスの概要を説明します。

  • 「fae」モードに入ります。

  • 「ibswitches」と入力し、接続されているデバイスの蓋(例としてlid-1を使用)を取得します。

  • モジュール情報のクエリ: mlxlink -d lid-1 -p 1 -m (ポート1のモジュール情報のクエリ)。

  • ポート分割を有効/無効にする: mlxconfig -d lid-1 set SPLIT_MODE=1 (無効にする場合は0)。

  • 特定のポートの分割機能を有効/無効にする: mlxconfig-d lid-1 set SPLIT_PORT[1.32]=1 (無効にする場合は0)。

スイッチサイドモジュール:OSFP 800G光モジュール

サイズと消費電力の制約により、9700/9790シリーズスイッチは32ケージ(OSFP)に制限されています。OSFPの各物理インターフェイスは、実際には2つの独立した400Gインターフェイスを提供し、NVIDIAではツインポート400Gと呼ばれています。これらのスイッチの使用を補完するために、FSはOSFP-800Gモジュールを導入しました。

VXLAN

OSFP-800G SR8モジュールは、デュアルMTP/MPO-12コネクタを介し、波長850nmのOM3ファイバで最大30m、OM4マルチモードファイバ(MMF)で最大50mのスループットを実現する800Gb/s 2xNDR InfiniBandシステム用に設計されています。デュアルポート設計は、2つのトランシーバエンジンを内蔵し、スイッチの可能性を最大限に引き出す重要な革新技術です。これにより、32個の物理インターフェイスで最大64個の400G NDRインターフェイスを提供できるようになります。この高密度・広帯域設計により、データセンターはハイパフォーマンスコンピューティング、人工知能クラウドインフラストラクチャなどのアプリケーションで増大するネットワーク需要や要件を満たすことができます。

VXLAN

FSのOSFP-800G SR8モジュールは、優れた性能と信頼性を提供し、データセンターに強力な光相互接続オプションを提供します。このモジュールにより、データセンターはQM9700/9790スイッチシリーズの性能を最大限に活用し、高帯域幅と低遅延の両方のデータ伝送をサポートします。