AI・データ分析・HPC分野向けGPUアクセラレーター
NVIDIA|NVIDIA A100/H100 TENSOR コア GPU
規模を問わず、高速化可能なアクセラレータ
NVIDIA A100 Tensor コア GPUは、あらゆるスケールでの高速化によって、AI、データ分析、HPCにおける困難な計算への挑戦を可能にします。
数千単位のGPUに効果的に拡張したり、マルチインスタンスGPUテクノロジによって7個のGPUインスタンスに分割したりすることで、
様々なサイズのワークロードを加速できます。
また、第3世代Tensorコアでは、多様なワークロードであらゆる精度が⾼速化され、
洞察を得るまでの時間と製品を市場に届けるまでの時間が短縮されます。
ピンチアウトで拡大
かつてない性能、拡張性、セキュリティを提供するアクセラレータ
NVIDIA H100 Tensor コア GPUは、あらゆるワークロードにためのかつてない性能、拡張性、セキュリティを提供します。
NVIDIA NVLink Switch Systemにより、最大256個のH100を接続し、エクサスケールのワークロードを高速化できることに加え、
専用のTransformer Engineを利⽤することで、パラメータが兆単位の⾔語モデルの実装が可能です。
これらの複合的な技術革新により、大規模な言語モデルが前世代と比較して30倍も高速化されます。
ピンチアウトで拡大
正確に会話するAIやディープリコメンダーシステムなど、次のレベルの課題に挑むため、AIモデルの複雑性が爆発的に増しています。
モデルのトレーニングには、大規模な計算処理能力とスケーラビリティが必要になります。
NVIDIA A100では、第3世代TensorコアとTF32精度を利用することで、
前世代と比較して最大20倍のパフォーマンスをコード変更することなく得ることが可能です。
また、数千単位に拡張することで、BERTのような大型のAIモデルをわずかな時間でトレーニングできます。
ピンチアウトで拡大
NVIDIA A100には、推論ワークロードを最適化する画期的な新機能が導入されています。
マルチインスタンスGPUテクノロジでは、1つのA100 GPUで複数のAIモデルを同時に運用できるため、計算リソースの使用を最適化できます。
また、スパース行列演算によってさらに推論を高速化することも可能です。
ピンチアウトで拡大
創薬や物理学の分野において、新しい技術を開発するために複雑なシミュレーションの高速化が求められています。
NVIDIA A100の第3世代Tensorコアはあらゆる精度に対応しており、倍精度シミュレーションにおいては前世代より2.5倍高速化しています。
また、HPCアプリケーションではTF32精度を活用することで、単精度の密行列積で最大10倍の演算スループットを実現可能です。
ピンチアウトで拡大
H100は第4世代のTensorコアと、FP8精度で混合エキスパート (MoE)モデルのトレーニングを前世代比最大9倍高速化する Transformer Engineを備えます。
GPUとGPUを毎秒900GBで相互接続する第4世代NVLink、ノード全体でGPUごとに通信を高速化するNVLINK Switch System、
PCIe Gen5、NVIDIA Magnum IOソフトウェアの組み合わせによって、
小規模なエンタープライズから大規模な統合GPUクラスターまで効率的なスケーラビリティが与えられます。
データ センター規模でのH100 GPU導入は、あらゆる研究者に次世代のエクサスケール ハイパフォーマンス コンピューティング(HPC)と
兆単位パラメーターAIをもたらします。
ピンチアウトで拡大
AI推論アクセラレータには、パフォーマンスのみでなく、ネットワークを加速するための多様性も求められます。
H100では、推論が最⼤30倍高速になる、レイテンシが最小限に抑えられる等、機能が強化されます。
第4世代のTensorコアはFP64、 TF32、FP32、FP16、INT8など、あらゆる精度をスピードアップし、
Transformer EngineはFP8とFP16の両方を活用してメモリ消費を減らしてパフォーマンスを増やしつつ、
⼤規模な⾔語モデルで精度を維持します。
ピンチアウトで拡大
NVIDIAデータセンタープラットフォームは、ムーアの法則を超えるパフォーマンス向上を継続的に提供します。
また、H100の新しい画期的なAI 機能は、HPC+AIのパワーをさらに増幅するため、
世界の最重要課題の解決に取り組む科学者や研究者がより早く成果を得ることが可能になります。
H100は、FP64の演算性能を3倍にし、HPCで60teraFLOPSのコンピューティングを実現します。
AIと融合したHPCアプリケーションでは、H100のTF32精度を活⽤し、コードの変更なしに
単精度⾏列乗算演算で1petaFLOP のスループットを達成することができます。
また、DPX命令を備え、NVIDIA A100 TensorコアGPUの7倍のパフォーマンスを提供し、
DNAシーケンスアライメント用のSmithWatermanなど、動的プログラミングアルゴリズムにおいて
従来のデュアルソケットCPUのみのサーバーと比較して40倍の高速化を実現します。
ピンチアウトで拡大
ITマネージャーはデータセンターでコンピューティングリソースの利⽤率(ピークと平均の両方)を最大化することを求めます。
多くの場合、コンピューティングを動的に再構成し、使用中のワークロードに合わせてリソースを正しいサイズに変更します。
H100の第2世代マルチインスタンスGPU(MIG)では、7個ものインスタンスに分割することで各GPUの利⽤率を最⼤化します。
コンフィデンシャルコンピューティング対応のH100では、マルチテナントをエンドツーエンドで安全に利⽤できます。
H100とMIGなら、インフラストラクチャ管理者はGPUアクセラレーテッド インフラストラクチャを標準化できて、
同時にGPUリソースを⾮常に細かくプロビジョニングできます。
正しい量のアクセラレーテッドコンピューティングが安全に開発者に与えられ、GPUリソースの利⽤を最適化します。
ピンチアウトで拡大