GPU拡張

ローカル・データ・センターでGPUアクセラレーテッド・ワークロードを有効にするには、GPUがインストールされているサーバー・ノードを使用してCompute Cloud@Customerインストールを拡張できます。

GPUノードは、配電盤(PDU)およびネットワーク・コンポーネントを含む拡張ラックに付属しており、追加の物理リソースをベース・ラックと統合できます。GPU拡張ラックには、工場出荷時にインストールされるGPUノードが少なくとも1つ、最大6つ含まれています。初期デプロイメント後にさらにノードをインストールできます。最大2つの拡張ラックをベース・ラックに接続でき、最大12個のGPUノードを使用できます。

GPUノードは、Intel Xeon Platinum 8480以上のアーキテクチャ、高速イーサネット接続、および48GBのGDDR6メモリと1466のピークFP8 TFLOPSを備えた4つのNVIDIA L40S GPUを備えた3つのRUサーバーです。これらのノードが完全にプロビジョニングされた後は、その使用がシームレスになります。つまり、新しいコンピュート・インスタンスの起動時に、ユーザーは専用コンピュート・シェイプを選択して、1つ以上のGPUをインスタンスに割り当てます。使用可能なシェイプの説明は、コンピュート・シェイプを参照してください。

コンポーネント仕様の詳細については、製造元のWebサイトを参照してください。

GPU拡張機能を備えたOracle Compute Cloud@Customerは、AIおよびグラフィックス集約型アプリケーションをエッジに構築するためのスケーラブルなプラットフォームを提供します。次のような次世代のデータ・センター・ワークロードを強化するために構築されています。

生成AI推論: マルチモデル生成AIパイプライン(テキスト、画像、音声、動画)のリアルタイム推論
LLMトレーニングとファインチューニング: 中規模LLMの微調整と、NVIDIAのトランスフォーマ・エンジンとFP8サポートによる小規模LLMのトレーニングのパフォーマンスの高速化
グラフィックス集約型およびVDIアプリケーション: NVIDIAのRTXおよびレイ・トレース機能を備えた3Dグラフィックスおよびレンダリング・ワークフロー
NVIDIA Omniverseを使用したデジタル・ツイン: 複雑な3D産業用デジタル化ワークフローの開発と運用
メディア・ストリーミング: 4Kビデオ・ストリーミングのエンコード/デコード密度の増加とAV1のサポート
HPC: FP32サポートによる科学的データ分析およびシミュレーション・ワークロード

インストール要件

設置場所の準備: GPUノードを使用してCompute Cloud@Customer環境を拡張することを決定した場合は、追加のハードウェアのインストールを慎重に計画してください。GPU拡張ラックは、基本ラックと同じ外部寸法を持ち、同じタイプのハードウェアを備えています。したがって、基本ラックサイトの要件も拡張ラックに適用されます。詳細は、Preparing the Installation Siteのインストールのセクションを参照してください。
ラックの配線: 基本ラックとGPU拡張ラック間のケーブル接続は、25 mを超えてはなりません。基本ラックの近くの拡張ラックのスペースを割り当て、ラック間ケーブルが床または天井を通るときに、指定された最大長内に収まるようにします。必要なケーブル長を順序で指定する必要があります。
高パフォーマンスのストレージ: GPUコンピュート・シェイプは、高速および低レイテンシ用に最適化されています。これらは高性能ストレージを排他的に使用します。つまり、システムの ZFS Storage Applianceは、1つ以上のパフォーマンスディスクトレイで構成される高性能ストレージプールを提供する必要があります。既存のインストールにパフォーマンス・トレイがない場合は、GPU拡張順序に追加されます。基本ラックにパフォーマンストレーを追加するためのラックユニットがない場合は、ストレージ拡張ラックに取り付けられます。GPU拡張ラックをアクティブ化する前に、高パフォーマンスのストレージ・プールを構成する必要があります。

インストール・プロセス

物理インストール

すべてのインストール・タスクはOracleによって実行されます。GPU拡張ラックが割り当てられたスペースにある場合は、ベース・ラックに接続する必要があります。拡張ラックのリーフスイッチは、データネットワークを拡張ラックに拡張するためにベースラックのスパインスイッチに相互接続されます。同様に、拡張ラックコンポーネントは、両方のラックの管理スイッチ間のケーブル接続を介して内部管理ネットワークに追加されます。このセットアップに必要なポートは、接続されているすべてのスイッチで予約されています。GPUノードは、工場の拡張ラック・スイッチに内部的に接続されています。

ラックのアクティブ化

物理接続が確立されると、いずれかの管理ノードからスクリプトを実行することによって拡張ラックがアクティブ化されます。スクリプトはスイッチの電源を投入し、必要なポートを有効にして、新しいハードウェアコンポーネントを検出して登録できるようにします。スクリプトが終了すると、データおよび管理ネットワークは相互接続されたラック全体で動作します。システムは、新しいノードでのオペレーティング・システムおよび追加ソフトウェアのインストールおよび構成を続行し、プロビジョニングの準備をします。GPUノードがプロビジョニングされると、完全に統合され、すぐに使用できます。

GPUノードは、他の計算ノードとともに既存のフォルト・ドメインに追加されます。ただし、サーバー・ファミリは相互に個別に動作し、それらの間の移行はサポートされていません。フォルト・ドメインは、標準のコンピュート・ノードとは異なり、GPUノードを1つずつ追加できるため、アンバランスになる可能性があります。

Oracle Cloud Infrastructureドキュメント

GPU拡張

インストール要件

インストール・プロセス