AI時代：光トランシーバー市場の成長を促進

人工知能（AI）の出現は、さまざまな業界にわたる変革の触媒となっています。パラダイムシフトが起きている分野の1つが光トランシーバー市場です。この記事では、AI、特にChatGPTのようなモデルによって引き起こされたAIの波が、2024年に予想される800G光トランシーバーの急増に焦点を当てながら、データセンター・ネットワークの再構築と高性能光トランシーバーの成長促進に及ぼす影響について詳しく掘り下げます。

ChatGPTが引き起こしたAIの波

ChatGPTのようなAIモデルの開発と展開は、新たな可能性の時代をもたらしました。これらのモデルは高度な深層学習技術を活用しており、人間のようなテキストを理解して生成する能力を示しています。ChatGPTは、このAIの波の代表として、通信を強化し、データ処理を合理化する可能性を実証しました。その自然言語処理機能は、人間とマシンの対話の効率化に貢献し、データセンターの運用を最適化する上で貴重な資産となります。したがって、AIの波は、より高速で、より信頼性が高く、より大容量の光トランシーバーの需要の背後にある推進力となっています。

ChatGPTの運用には、頑強なクラウドコンピューティングリソースのサポートが必要です。OpenAIによって2018年にリリースされたGPTモデルは、1億1700万のパラメータを持ち、約5GBの事前学習データでトレーニングされました。対照的に、GPT-3は驚異的な1750億のパラメータを誇り、45TBのデータでトレーニングされました。モデルのトレーニングフェーズだけでも、ChatGPTは約3640 PF日の計算能力を消費し、トレーニングコストは驚異的な1200万ドルに達しました。サービスアクセスフェーズでの消費量はさらに大きいです。現在のChatGPTユーザーの検索とアクセスのニーズを満たすためには、サーバー（GPU）を使用した計算インフラへの初期投資として、約30～40億ドルが必要と推定されています。

AIがデータセンター・ネットワークをどのように再構築するか

データセンターへのAIの統合により、データ伝送の状況が再定義されました。従来のコンピューティング・ワークロード向けに設計された従来のデータセンターは、AI主導のアプリケーションの需要を満たすために変貌を遂げています。主要な差別化要因は、データの処理方法と送信方法にあります。

従来のデータセンター vs. AI データセンター

従来のデータセンターでは、データは階層型ネットワーク・アーキテクチャを介して流れ、各層で遅延や潜在的なボトルネックが発生します。 最初は、データセンターでは伝統的な3層モデルが採用されました。このモデルは、アクセス層、集約層、コア層から構成されています。アクセス層はコンピューティングノードをキャビネットスイッチに接続し、集約層はアクセス層間の相互接続を容易にし、コア層は集約層と外部ネットワークの接続を管理します。

しかし、データセンター内の東西トラフィックの量が急速に増加するにつれて、3層ネットワークアーキテクチャのコア層と集約層はますます多くのタスクと高いパフォーマンス要件に直面し、装置コストが大幅に上昇しました。その結果、東西トラフィックに特化したより効率的なリーフ-スパインネットワークアーキテクチャが登場しました。この改訂されたアーキテクチャでは、リーフスイッチがコンピュートノードと直接接続を確立し、スパインスイッチがコアスイッチとして機能し、等価コストマルチパス（ECMP）を介して複数のパスを動的に選択します。

リーフスパイン・ネットワークアーキテクチャには、高帯域幅の利用率、優れたスケーラビリティ、予測可能なネットワーク遅延、セキュリティの強化など、いくつかの利点があります。これらの機能により、さまざまなデータセンターシナリオでの導入に広く適用でき、有利な結果をもたらします。

data center architecture

一方、AIデータセンターでは、並列処理、分散コンピューティング、高速インターコネクトを活用して、データのシームレスなフローと最小限のレイテンシを確保しています。内部データトラフィックの増加により、ブロックされないファットツリーネットワークアーキテクチャの必要性が非常に重要となっています。NVIDIAのAIデータセンターでは、ブロックされない機能性を確保するために、ファットツリーネットワークアーキテクチャを採用しています。

その基本的なアイデアは、大量の低性能なスイッチを利用して広範なブロックされないネットワークを構築することです。この設計により、任意の通信パターンに対して、通信帯域幅がネットワークインターフェースカード（NIC）の帯域幅に一致する通信経路が存在し、アーキテクチャ内のすべてのスイッチが同一であることが保証されます。ファットツリーネットワークアーキテクチャは、要求の厳しいネットワーク環境を持つデータセンター、特に高性能コンピューティングセンターやAIデータセンターで広く使用されています。

NVIDIAのDGX A100 SuperPOD AIデータセンターシステムを例に挙げると、すべての3層スイッチにはNVIDIA Quantum QM8790 40ポートスイッチが使用されています。第1層スイッチは、1120個のMellanox HDR 200G InfiniBand NICに接続されています。このセットアップでは、第2層スイッチのダウンリンクポートは第1層スイッチに接続され、アップリンクポートは第3層スイッチに接続されます。第3層スイッチにはダウンリンクポートのみがあり、第2層スイッチと相互接続されています。

さらに、システムのストレージ側は、コンピュート側とは別個のネットワークアーキテクチャを採用しています。この分離には、特定の数のスイッチと光トランシーバが必要です。そのため、従来のデータセンターと比較すると、AIデータセンターではスイッチと光トランシーバの数が大幅に増加しています。

800G光トランシーバーが重要な役割を果たす

800G光トランシーバは、この変革において重要な役割を果たしています。1つの800G光トランシーバは、光ポートで2つの400G光トランシーバを置き換えることができます。さらに、電気ポートでは8つのSerDesチャネルを統合することができ、光ポートの8つの100Gチャネルに合わせることができます。この設計により、スイッチ内のチャネル密度が向上し、物理サイズが著しく削減されます。

光トランシーバの速度はネットワークカードに影響を受け、ネットワークカードの速度はPCIeチャネルの速度に制約されます。NVIDIAのA100 DGXサーバーでは、内部接続はNVLink3を介して行われ、片方向の帯域幅は300GB/sです。ただし、A100 GPUはConnectX-6ネットワークカードに16本のPCIe 4.0チャネルで接続され、合計帯域幅は約200Gとなります。したがって、ネットワークカードの帯域幅200Gに合わせるためには、200G光トランシーバまたはDACケーブルが必要です。

H100 DGXサーバーの場合、内部接続ではNVLink4を使用し、片方向の帯域幅は450GB/sです。H100 GPUはConnectX-7ネットワークカードに16本のPCIe 5.0チャネルで接続され、個々のネットワークカードの合計帯域幅は約400Gになります。特筆すべきは、光トランシーバの速度はネットワークカードとGPUの間のPCIe帯域幅によって影響を受けるということです。

もしA100およびH100 DGXサーバーの内部PCIeチャネルの速度が800G（PCIe 6.0）に達すると、800Gの帯域幅を持つネットワークカードを展開し、800Gの光トランシーバを使用することが可能になります。この進歩により、システムの計算効率を大幅に向上させる可能性があります。

PCIe channel speed evolution

2024 — 800G光トランシーバーの年になる

今後を展望すると、2024年は光トランシーバー市場にとって重要な年となり、800Gソリューションに注目が集まるでしょう。2019年の時点で、100G光トランシーバーへの移行時期としてマークされ、市場には200Gと400Gの2つのアップグレードパスが提示されました。ただし、市場にある次世代の高速光トランシーバーはもっぱら800G光トランシーバーを対象としています。AIおよびGC（Generalized Convolutional）ネットワークによる計算能力と競争の激化と相まって、北米の大手クラウドプロバイダーやテクノロジー大手が2024年に800G光トランシーバーを大幅に買収する可能性が高いと予想されています。

2024 — The Year of 800G Optical Transceivers

この変革の進む中で、信頼できる革新的なパートナーが重要となります。FSは、世界中の超大規模クラウドデータセンター向けに設計された完全な800Gポートフォリオを提供する信頼性の高いネットワーキングソリューションのプロバイダとして、重要な存在です。2023年には、800G NDR InfiniBandソリューションの新シリーズを発表しました。製品ラインナップには、800G OSFPと800G QSFP-DDの光トランシーバタイプが含まれています。さらに、FSは800G AOCとDACも製品ラインナップに追加しています。これにより、さまざまな業界のお客様に対して幅広いサポートを提供し、優れた信頼性のある光ネットワーク製品とソリューションの継続的な供給を確保しています。

結論として、AIの進歩と光トランシーバー市場の融合により、高速かつ効率的なデータ伝送の新時代が到来します。データセンター・ネットワークに対するAIの変革的な影響は、光トランシーバーの極めて重要な役割を強調しています。800G光トランシーバーの年である2024年が予想される中、企業はいつでもFSを利用してAI時代の複雑さを乗り越え、無限の可能性の未来を切り開く回復力のある高性能ネットワークを構築できます。

siennaxu’s blog

ここで通信分野と関連する記事を紹介していきます！よろしくお願いいたします。