AI学習が単一データセンターの限界を超えて拡大する中、新たなアーキテクチャモデルであるスケールアクロスが台頭しています。本ブログでは、Brodie Gageが分散型AI学習によって光インフラがどのように変化しているのかを解説し、リージョンおよびマルチリージョンにわたるスケールアクロス・アプリケーションを支えるコヒーレント技術とフォトニクス・イノベーションにおけるCienaの取り組みを紹介します。

以前にも述べたように、AIとクラウド・アプリケーションはインフラの常識を書き換えつつあります。この変化は、AIモデルの学習方法だけでなく、それを支えるネットワークの構築方法にも及んでいます。

これは皆さんも実感していることでしょう。モデルがますます複雑になり、データセットも大規模化する中で、AIの学習環境はかつてない速度で拡大しています。つい最近まで、最先端のクラスターは数万GPU規模で測られていました。現在では、クラスターは数十万GPU規模へと拡大しており、業界は急速に100万GPUを超える学習環境の時代へと近づいています。

このような成長により、ネットワーク・アーキテクチャには根本的な転換が求められています。

電力密度の制約だけを見ても、AIインフラはすでに単一データセンターの枠を超えつつあります。これまでのように1つの施設内で学習モデルを運用するのではなく、顧客はクラスターを複数の拠点やキャンパス、さらにはリージョン間に分散して配置するようになっています。

Cienaでは、この変化がコヒーレント光技術、プラガブル、そしてフォトニクス・システムの進化の方向性に直接影響を与えています。私たちは単に容量を増やしているのではありません。前例のない規模の分散型AIを支えるために、光ネットワークの基盤そのものを再設計しています。これらの進展については後ほど詳しく説明しますが、その出発点となったのは次の重要な問いでした。

インフラが物理的に分散している状況で、どうすれば単一で同期されたAI学習環境を維持できるのか?

そこで登場しつつあるのが、新しいアーキテクチャのパラダイムであるスケールアクロスです。

スケールアクロスとは?

AIインフラに関する議論の多くは、これまでスケールアップやスケールアウトに焦点を当ててきました。しかし今では、スケールアクロス・アーキテクチャの採用が急速に進んでいます。

スケールアクロスは、AI学習を単一のデータセンターの枠を超えて拡張し、異なるキャンパスやリージョンに配置されたGPUをまたいで、1つのAIモデルを学習できるようにするものです。言い換えれば、インフラが物理的に分散していても、1つの論理的なAI学習環境を構築できるようにするアーキテクチャです。

スケールアクロス:データセンターのキャンパス間やリージョン間にロスレス接続を拡張し、単一のAIモデル学習をサポートする

そして、これは単に帯域幅を増やすだけでは実現できません。

AI学習ワークロードは、ネットワークの挙動に非常に敏感です。パケットロス、輻輳、そして不安定なレイテンシーは学習速度を大きく低下させ、距離が伸びるほどその影響はさらに大きくなります。

スケールアクロスは、ネットワークの複数の層で次のような新たな要件を生み出します。

  • パケットレイヤーにおける、よりスマートなトラフィック管理と輻輳管理
  • そして特に重要な、その基盤となる新しい光接続

学習環境がキャンパスの枠を超えて広がると、従来のインターコネクト方式では十分ではなくなります。こうした背景から、コヒーレント光技術が分散型AI学習アーキテクチャを支える重要な技術になりつつあります。

私たちは、クラウドおよびAIインフラのリーダー企業との対話を通じて、この課題を繰り返し耳にしています。コヒーレント光技術およびフォトニクス・ラインシステムの業界リーダーとして、Cienaは顧客と緊密に連携しながら、スケールアクロスを実現する新しいアーキテクチャや、それに最適化されたソリューションの開発を進めています。

「こうした背景から、コヒーレント光技術が分散型AI学習アーキテクチャを支える重要な技術になりつつあります」

AIクラスターの基盤となるコヒーレント光技術

距離をまたいでAIクラスターを接続するには、従来のメトロDCIとは大きく異なる種類の光ネットワークが必要になります。

単に2つの拠点間の帯域幅を増やすということではありません。容量、信頼性、そしてレイテンシーがモデル性能に直接影響する環境において、厳密に同期されたAI学習環境を距離を越えて拡張するということなのです。

そのため、光レイヤーには次のような性能が求められます。

  • 超大容量
  • 極めて高い信頼性
  • 一貫して低く予測可能なレイテンシー

さらに、それらを従来のデータセンター間接続(DCI)の展開規模を大きく超えるスケールで実施しなければなりません。ここで、コヒーレント光技術およびフォトニクス・レイヤーのイノベーションが、単なる接続だけでなく、AI性能そのものを支える基盤となります。

スケールアクロスにおける2つのアーキテクチャ:近距離と長距離

顧客との対話を通じて、現在2つの主要なアーキテクチャの方向性が見え始めており、それぞれに異なる要件があります。

近距離スケールアクロス:リージョン内接続向けに最適化されたアーキテクチャ

近距離スケールアクロスは、レイテンシーを低く抑え、できるだけシンプルなアーキテクチャを維持しながら、メトロまたはリージョンレベルの範囲でAI学習を拡張することに重点を置いています。その代償は明確です。スペースや電力は依然として限られており、耐障害性の選択肢もより限られる可能性があります。

Cienaがこの用途向けの新しいラインシステムの開発を開始した際、顧客からの要望は非常に明確でした。それは、途中に中継増幅拠点を設けることを「何としても」避けながら、伝送距離を最大化することでした。さらに、そのソリューションを1年未満という短期間で、定義、開発、製造、出荷、導入まで完了する必要がありました。

この課題に対応するため、Cienaのチームは業界における独自の経験を活かし、顧客と緊密に連携しながら、単一スパンのスケールアクロス接続に特化して最適化されたフォトニクス・ラインシステムを提供しました。

私たちが提供している重要なイノベーションの1つが、このパッシブなポイントツーポイント構成において、CバンドとLバンドの両方のコヒーレント技術を活用することです。これにより、同一のファイバー・インフラ上で実現できる大容量接続の数を実質的に倍増させることができます。これは、AIクラスターがこれまでにない帯域幅を必要としている一方で、スペースや電力は依然として限られているという状況において極めて重要です。このようなスケールを支えるためには、コヒーレント・プラガブルとフォトニクス・ラインシステムの双方に新たな要件が生まれます。

Cienaが最適化した「近距離スケールアクロス」構成

プラガブルに関しては、当社のWaveLogic 6 Nano 800Gb/sコヒーレント・プラガブルが、従来のCバンドに加えてLバンドでも利用可能になりました。これにより、こうした導入において利用可能なスペクトラムを拡張することができます。これは特に重要です。顧客は拠点間でのトラフィックを指数関数的に増加させる必要があり、その規模は数十Pb/sに達します。さらに、数万規模の接続を短期間で導入する必要があり、ネットワークをフル容量が整うまで稼働できないケースも少なくありません。同時に、これらのプラガブルは業界トップクラスの性能を提供しながら、相互運用可能な800G ZR+にも対応しています。これにより、顧客はスケール拡大を進める中でも、容量要件とオープン性の要件の両方を満たすことができます。

これらの導入の基盤となるのが、Cienaの新しいRLS C&Lバンドライン・システム構成後ほど詳述)です。これはハイパースケーラーと共同で開発されたもので、近距離スケールアクロス・アーキテクチャ特有の要件に対応するよう設計されています。このコンパクトなC+Lソリューションは、光保護機能を備えたターミナル構成でわずか6RUに収まり、さらに新しい電源モジュールを採用することで、標準的なデータセンターのラックへそのまま導入できるようになっています。

単一スパンでの伝送距離をさらに延ばすため、このシステムではラマン増幅を活用し、延伸スパン性能を実現しています。これにより、中継増幅拠点の設置を減らすことが可能になります。中継拠点の設置は、設備や用地、電力といった面で大きな実務上の課題を伴う場合があるためです。

また、AI学習環境では極めて高い耐障害性が求められるため、このソリューションには光保護スイッチング機能が統合されています。これにより、CバンドまたはLバンド・スペクトラムのいずれかで障害が発生した場合でも迅速に対応し、極めて高い信頼性を確保します。

これらのイノベーションにより、キャンパス間でAIインフラを拡張するために必要な光ネットワークの基盤が実現します。すなわち、近距離スケールアクロスに求められる容量、シンプルさ、信頼性を備えた基盤です。

長距離スケールアクロス:マルチリージョンAIに向けたフォトニクスの再設計

多くの方にとって、長距離スケールアクロスは非常に魅力的です。より多くのスペースや電力へのアクセス、より広い地理的分散、そして災害復旧や耐障害性においてより強力な選択肢が得られるなど、はるかに高い柔軟性を実現できるからです。

しかし同時に、伝送ルート上ではまったく異なる種類のスペースおよび電力制約が生じます。

マルチリージョン規模の距離では、中継増幅拠点(ILAサイト)は避けられません。従来のフォトニクス・ラインシステム設計は、こうしたアーキテクチャで求められる拡大を想定して作られていませんでした。数百のファイバーペアにわたり、桁違いに多いトラフィックを処理しながら、厳しいスペースと電力効率を維持するためには、根本的に新しいアプローチが必要でした。

要するに、ラインシステムのアーキテクチャそのものを見直す必要がありました。

ハイパースケーラーやサービス・プロバイダーと緊密に連携しながら、私たちは大幅に増加するファイバー数とトラフィック量に対応できる新しい中継増幅構成を開発しました。それも、従来と同じ運用スペースに収まるよう設計されています。従来のライン増幅システムでは、1つのシャーシで1つのファイバーペアをサポートするのが一般的でした。しかし、長距離スケールアクロスの要件では、はるかに高い実装密度が求められました。

分散型AI学習の新たな要件に対応するため、増幅サイトの大幅な高密度化が求められている

その結果として生まれたのが、新しいRLS Hyper-Rail構成です。大規模なマルチリージョンAI接続向けに特化して設計されており、既存のラックスペースにシームレスに収まりながら、ファイバー密度を桁違いに向上させることができます。

このレベルの高密度化は極めて重要です。ラックあたりのファイバー容量を大幅に増やすことで、顧客は各拠点で追加の増幅設備を設置する必要性を大きく減らす、あるいは回避することさえ可能になります。これにより、スペースや電力の需要を抑えるとともに、新たな用地の確保や開発に伴う複雑さも軽減できます。

長距離スケールアクロスは、光インフラをこれまでにない領域へと押し広げています。RLS Hyper-Railにより、Cienaは顧客に対して、地域間でAIクラスターを効率的かつ持続的に接続するために必要な、スケーラブルで高密度なフォトニクス基盤を提供しています。

スケールアクロス向けに特化した初の光システムの構築

スケールアクロスは単なるネットワークの進化ではなく、AIインフラの新しいアーキテクチャ・モデルです。

分散型学習が標準になりつつある中で、光ネットワークは単なる支援的な役割から、戦略的に重要な基盤へと変わりつつあります。ここからが、Cienaにとって本当に面白いところです。私たちはラボで顧客と共に取り組みながら、これを実現するためのコヒーレント技術やフォトニクス・レイヤーのイノベーションを開発しています。そして、皆さんのようなオペレーターが、性能、効率、安心感をもって、キャンパス間やリージョン間にわたってAIインフラを拡張できるよう支援します。

そして同様に重要なのは、この新しい時代の成功は、単に拡大の規模ではなく、そのスピードにかかっているという点です。AI環境が指数関数的に拡大し、導入までの時間がますます短縮される中で、顧客は迅速に設計・提供・立ち上げが可能な光ソリューションを必要としています。それも、信頼性やオープン性を損なうことなく実現できるものです。

Cienaは、AIインフラの次の章をともに形作っていけることを楽しみにしています。

CienaのRLS「近距離スケールアクロス」構成の詳細