siennaxu’s blog

ここで通信分野と関連する記事を紹介していきます! よろしくお願いいたします。

HPC(高性能コンピューティング)向けインテリジェント・ロスレス・イーサネット・ネットワーク

現在、データセンターは計算能力のハブへと変貌を遂げ、その中に収容される計算クラスタの規模が絶えず拡大しています。コンピューティング・ノード間の高性能相互接続ネットワークに対するニーズが高まっているのは、これらのコンピューティング・ノードをリンクするネットワークに対する期待性能がエスカレートしていることへの直接的な対応するものです。データセンター・ネットワーキングの統合は、コンピューティングとネットワーキングの深い融合に向かう一般的な傾向を反映し、シームレスにデータセンターのコンピューティング・パワーに不可欠なコンポーネントとなっています。

ネットワーキング・インフラに対する高性能コンピューティング・ワークロードの要求の増大

5G、ビッグデータ、モノのインターネット(IoT)、人工知能(AI)といった革命的なテクノロジーが社会のさまざまな側面に浸透するにつれ、インテリジェントなデジタル中心社会への軌跡は、今後20~30年にわたって避けられないものとなっています。データセンターのコンピューティング能力が強力な原動力として台頭し、リソース規模への重点からコンピューティング能力規模への移行が進んでいます。業界は、データセンター内の高性能コンピューティングを促進する上でネットワークが極めて重要な役割を果たす、コンピューティング・パワー・センターの概念を広く受け入れています。ネットワーク性能の向上は、データセンターのコンピューティングパワーのエネルギー効率を高める上で極めて重要な要素です。

業界は、コンピューティング能力を強化するために、多方面で絶え間ない進化を遂げています。シングルコアチップ技術の進歩は、3nmでボトルネックに達しました。演算能力を増強するためにマルチコアの積層が追求されているが、コア数の増加に伴い、単位演算能力あたりの消費電力が顕著に急増します。コンピューティング・ユニット技術の進化は限界に近づいており、18カ月ごとに性能が倍増するムーアの法則は枯渇に近づいています。高性能コンピューティング(HPC)は、特にコンピューティング・クラスターの規模がPスケールからEスケールに拡大するにつれて、増大するコンピューティング・パワーへの需要を満たすために不可欠となっています。この移行に伴い、相互接続ネットワークの性能はますます高くなる必要があり、計算とネットワーキングの深い統合における明確な傾向を示しています。

高性能コンピューティング(HPC)には、シミュレーション、モデリングレンダリングなど、標準的なワークステーションの能力を超える複雑な科学的コンピューティングの課題に取り組むために、集約されたコンピューティングパワーを活用することが含まれます。コンピューティングパワーに対する需要がPスケールからEスケールへと急増するにつれて、コンピューティングクラスターの規模も大きくなり、相互接続ネットワークの性能に対する要求も高まっています。計算とネットワーキングの共生関係がより顕著になります。

HPCは、次の3つの典型的なシナリオにおいて、さまざまなネットワーク・パフォーマンス要件をもたらします:

  • 疎結合コンピューティングのシナリオ: 金融リスク評価やリモートセンシングなど、計算ノード間の相互依存性が低いシナリオでは、ネットワーク性能に対する要求は比較的控えめです。

  • タイト・カップリングのシナリオ: 計算ノード間の高い協調依存性、計算の同期化、迅速な情報伝達は、電磁気シミュレーションや流体力学のような密結合シナリオを特徴づけます。このようなシナリオでは、ネットワークの低遅延が要求され、低遅延ネットワークが必要となります。

  • データ集約型コンピューティングのシナリオ: 天気予報や遺伝子配列などのデータ集約型のシナリオでは、コンピューティング・ノードが大量のデータを処理し、重要な中間データを生成するため、ネットワーク遅延に関する特定の要件を伴う高スループットのネットワークが不可欠です。

要約すると、高性能コンピューティング(HPC)は、ネットワークに高スループットと低レイテンシという厳しい要求を課しています。このような要求を満たすため、業界ではTCPプロトコルの代用としてリモートダイレクトメモリアクセス(RDMA)を採用し、待ち時間を短縮してサーバーのCPU使用率を最小限に抑えるのが一般的です。その利点にもかかわらず、RDMAはネットワークのパケットロスに敏感であるため、ロスレス・ネットワークの重要性が強調されています。

高性能コンピューティング・ネットワークの進化

従来のデータセンターネットワークは、歴史的にイーサネット技術に基づくマルチホップ対称型アーキテクチャを採用し、伝送にはTCP/IPプロトコルスタックに依存してきました。しかし、30年以上にわたる開発にもかかわらず、従来のTCP/IPネットワーク固有の技術的特性により、高性能コンピューティング(HPC)の要求を満たすには適していません。RDMA(リモート・ダイレクト・メモリー・アクセス)技術が、HPCネットワークに適したプロトコルとしてTCP/IPに徐々に取って代わるという大きな変化が起きています。さらに、RDMAのネットワーク層プロトコルの選択は、InfiniBand(IB)プロトコルをベースとした高価なロスレスネットワークから、イーサネットをベースとしたインテリジェントなロスレスネットワークへと進化しています。FSの技術エキスパートが、これらの技術的な変遷と進歩の背後にある理由を解明します。

TCPからRDMAへ

従来のデータセンターでは、イーサネット技術とTCP/IPプロトコル・スタックが、マルチホップ対称型ネットワーク・アーキテクチャを構築するための標準でした。しかし、TCP/IPネットワークは、次の2つの主な制限により、高性能コンピューティングの要求には不十分なものとなっています:

  • レイテンシーの問題: TCP/IPプロトコル・スタックでは、パケット受信/送信時にカーネル内で複数のコンテキスト・スイッチが行われるため、数マイクロ秒のレイテンシが発生します。このレイテンシは5~10マイクロ秒であり、マイクロ秒レベルのシステムではボトルネックとなり、AIデータ処理や分散SSDストレージなどのタスクに影響を与えます。

  • CPU使用率: レイテンシーの問題だけでなく、TCP/IPネットワークでは、プロトコルスタック内の複数のメモリコピーにホストCPUを関与させる必要があります。ネットワークの規模や帯域幅が大きくなると、CPUのスケジューリング負担が増大し、CPU負荷が持続的に高くなります。1ビットのデータ送信は1HzのCPU周波数を消費するという一般的な理解では、25Gを超えるネットワーク帯域幅(全負荷時)は、CPU容量のかなりの部分を必要とします。

こうした課題に対処するため、RDMA機能がサーバー側に導入されました。ダイレクトメモリアクセス技術であるRDMAは、オペレーティングシステムを介さずにコンピュータのメモリ間で直接データ転送を行い、時間のかかるプロセッサ操作を回避します。このアプローチは、高帯域幅、低レイテンシ、低リソース利用を実現します。

IBからRoCEへ

RDMAのカーネルバイパスメカニズムは、下図に示すように、アプリケーションとネットワークカード間でデータの直接読み書きを可能にします。これはTCP/IPの制限を回避し、プロトコルスタックの待ち時間をほぼ1マイクロ秒に短縮します。RDMAのゼロコピー・メカニズムにより、受信側は送信側のメモリから直接データを読み取ることができるため、CPUの負担が大幅に軽減され、CPU効率が向上します。これと比較すると、40GbpsのTCP/IPフローはすべてのCPUリソースを飽和させる可能性がありますが、40GbpsのRDMAではCPU使用率が100%から5%に低下し、ネットワークレイテンシはミリ秒から10マイクロ秒以下に減少します。

hpc

現在、RDMAネットワーク層プロトコルには、InfiniBand、iWARP(Internet Wide Area RDMA Protocol)、RoCE(RDMA over Converged Ethernet)の3つのオプションがあります。

  • InfiniBand: RDMAのために特別に設計されたInfiniBandは、ハードウェアレベルでロスレスネットワーキングを保証し、高スループットと低レイテンシーを提供します。しかし、そのクローズドなアーキテクチャは、相互運用性の課題とベンダーロックインのリスクをもたらします。

  • iWARP: このプロトコルTCP上でRDMAを可能にし、特別なネットワークカードを利用するが、TCPプロトコルの制限により性能上の利点は失われます。

  • RoCE: イーサネット上でのリモートメモリアクセスを可能にするRoCEは、RDMA技術をイーサネットに応用したものです。標準的なイーサネットスイッチでRDMAをサポートするため、RoCEは特別なネットワークカードしか必要としません。そして、RoCEv1とRoCEv2の2つのバージョンが存在します。ネットワーク層プロトコルであるRoCEv2は、ルーティング機能を実現し、異なるブロードキャストドメインのホスト間のアクセスを可能にします。

RoCEの利点にもかかわらず、パケットロスに敏感であるため、ロスレスイーサネットのサポートが必要です。HPCネットワークにおけるこのような進化は、性能、効率、相互運用性の向上を追求し続けていることを示しています。

結論

データセンターとハイパフォーマンス・コンピューティングに対する要求が高まる中、RDMA技術は、高性能で低レイテンシのデータ転送を促進する上で、依然として極めて重要な役割を担っています。InfiniBand技術とRDMA対応イーサネット技術のどちらを選択するかは、ユーザーとベンダーの双方が特定の要件と実用的なニーズを慎重に検討する必要があります。スーパーコンピューティングの分野では、InfiniBandテクノロジーは幅広いアプリケーションと確立されたエコシステムを誇っています。一方、RoCEとiWARPは、イーサネット環境内の高性能コンピューティングとストレージ・シナリオにより適していることが証明されています。

FSは、ネットワーキング、データセンター、テレコムの顧客に通信および高速ネットワーク・システム・ソリューションを提供するプロフェッショナル・プロバイダーです。NVIDIA® InfiniBandスイッチ100G/200G/400G/800G InfiniBandトランシーバー、NVIDIA® InfiniBandアダプタを活用して、InfiniBandとロスレスイーサネット(RoCE)に基づく一連のソリューションを提供します。これらのソリューションは、さまざまなアプリケーション要件に応え、ユーザーがビジネスを加速し、パフォーマンスを向上できるようにします。詳細については、公式FS.COMをご覧ください。