\r\n\r\n

nvidiaのRTX 3000シリーズGPU:新機能はこちらです。

2020年9月1日、nvidiaはゲーミングGPUの新ラインナップとして、ampedアーキテクチャを採用した「rtx3000」シリーズを発表しました。何が新しいのか、AIを駆使したソフトウェア、そしてこの世代を本当に素晴らしいものにするためのあらゆるディテールを解説します...。

2020年9月1日、NVIDIAは、同社のAmpereアーキテクチャを採用したゲーミングGPUの新ラインアップ:RTX3000シリーズを発表しました。何が新しいのか、AIを駆使したソフトウェア、この世代が本当に素晴らしいのか、あらゆるディテールをお話しします。

rtx 3000シリーズGPUのご紹介

NVIDIAの主な発表は、すべてカスタム8nm**プロセスで製造され、ラスタライズとレイトレーシングの性能に大きな改善をもたらすピカピカの新GPUでした。

ラインアップの下位には、499ドルの「rtx3070」があります。NVIDIAが発表当初に発売した最安値のカードとしては少々値が張るが、通常1400ドル以上で販売されている既存の最上位カードであるRTX2080TIを上回ることを知れば、絶対的なお買い得品である。しかし、NVIDIAが発表した後、サードパーティのオークション価格が下がり、eBayでは600ドル以下で大量に買い占められた。

発表ではまだ信頼できるベンチマークが出ていないので、客観的に2080TIより「良い」カードというわけでもないし、Nvidiaが少しマーケティングを歪めているのかもしれませんね。実行されているベンチマークは4Kで、RTXをオンにしている可能性が高く、Ampereベースの3000シリーズはレイトレーシングの面でTuringの2倍以上の性能を発揮するため、純粋なラスタライズゲームよりも差が大きく見えるかもしれません。しかし、レイトレーシングはもはや性能上のデメリットはあまりなく、最新世代のゲーム機でもサポートされているため、前世代のフラッグシップ機のほぼ3分の1の速度で動作することがセールスポイントの1つとなっています。

この価格が維持されるかどうかは不明です。サードパーティーのデザインは通常、定価に50ドル以上上乗せされるため、需要が増えれば2020年10月には600ドルで販売されてもおかしくはないでしょう。

その少し上が699ドルのRTX3080で、RTX2080の2倍、3080の25~30%程度の速度になるはずです。

そして、トップには、新しいフラッグシップとして、笑えるほど巨大なrtx3090が登場します。NVIDIAはこのことを明確に伝えており、同社によると "Big Fierce GPU "の略で「BFGPU」と呼んでいます。

NVIDIAは直接的な性能指標を示さなかったが、8Kゲームを60フレーム/秒で動作させる様子を紹介し、印象的であった。確かに、NVIDIAはこの目標を達成するために、ほぼ間違いなくDLSSを使用していますが、8Kゲーミングは8Kゲーミングなのです。

もちろん、いずれは3060など、より予算重視のカードのバリエーションも出てくるでしょうが、それらはたいてい後から出てくるものです。

3080の定格出力は320ワットとかなり高いため、NVIDIAはデュアルファンデザインを選択しましたが、両方のファンを底面に配置する代わりに、NVIDIAはファンを通常バックプレートがある上部に配置しました。ファンは、CPUクーラーとケース上部に空気を上向きに導く。

これは、エアフローの悪さが1つのケースでどの程度パフォーマンスに影響するかという点では、非常に合理的なことだと思います。しかし、これはサードパーティーの販売価格に影響を与える可能性があるため、非常に狭い範囲のボードとなっています。

dlss:ソフトウェアの利点

この新しいカードが優れているのは、レイトレーシングだけではありません。本当に、RTX 2000シリーズや3000シリーズが、旧世代のカードと比べて実際のレイトレーシングがうまくいっていないのは、ちょっとハテナですね。Blenderのような3Dソフトウェアでは、フルシーンのレイトレースは通常1フレームあたり数秒から数分かかるので、10ミリ秒以下で無理やりトレースすることは不可能です。

もちろん、RT カーネルと呼ばれるレイクランチ ングを実行するための専用ハードウェアもありますが、 NVIDIA は大きく異なるアプローチを選択しました。NVIDIA は、非常に安っぽく見えるシングルチャンネルを GPU でレンダリングし、人工知能の魔法によってゲーマーが見 たいものに変えられるようにノイズ除去アルゴリズムを改善しまし た。従来のラスタライズ技術と組み合わせることで、レイトレーシング効果がもたらす快感をより高めることができます。

しかし、これを迅速に実現するために、NVIDIAはテンソルコアと呼ばれるAI専用の処理コアを追加しています。これらのプログラムは、機械学習モデルの実行に必要なすべての計算を処理し、非常に高速に動作する。AIは多くの企業で広く活用されているため、クラウドサーバー領域におけるAIのあり方を完全に変える存在です。

ノイズ除去のほか、ゲーマー向けのテンソルカーネルの主な用途は、DLSS(深層学習スーパーサンプリング)と呼ばれるものです。これは基本的に、1080pのフレームレートでゲームをしながら4K映像を見ることができることを意味します。

また、レイトレーシング性能は、PCMagがRTX2080スーパーを超高画質で動作させ、すべてのレイトレーシング設定を最大にした状態でベンチマークしていることがかなり効いています。4Kでは19FPSと苦戦していますが、DLSSを搭載することで54FPSと向上しています。 DLSSはTuringとAmpereのTensorコアで実現したNVIDIAのフリーパフォーマンスです。GPUに制限のあるゲームでも、これに対応していれば、ソフト単体で本格的な加速が見込めます。

DLSSは新しい機能ではなく、2年前のrtx2000シリーズ発売時に機能としてリリースされました。当時は、NVIDIAがゲームごとに機械学習モデルをトレーニングし、チューニングする必要があったため、対応するゲームはほとんどありませんでした。

しかし、その間にNVIDIAはこれを完全に書き直し、新バージョンdlss 2.0と名付けました。これは汎用APIなので、どんな開発者でも実装でき、ほとんどの主要リリースで採用されています。TAAと同様、フレームを処理するのではなく、前のフレームから動きベクトルデータを取得する。結果はDLSS1.0よりもシャープで、場合によってはネイティブ解像度よりもきれいにシャープに見えることもあるので、有効にしない理由はあまりないと思います。

シーンが完全に切り替わる場合、例えばカットシーンでは、DLSS 2.0はモーションベクトルデータを待つ間、最初のフレームを50%の品質でレンダリングしなければならないという問題があります。その結果、数ミリ秒の間に品質がわずかに低下することがあります。しかし、目に見えるものの99%は正しくレンダリングされるため、実際にはほとんどの人がこのことに気づきません。

関連:NVIDIA DLSSとは?レイトレーシングを高速化する仕組みとは?

人工知能のために設計された「アンペア・アーキテクチャ

アンプは速い。RTコアはTuringの1.7倍、新しいテンソルコアはTuringの2.7倍の速さです。この2つの組み合わせは、レイトレーシング性能においてまさに世代を超えた飛躍と言えるでしょう。

今年5月初め、NVIDIAはAIを動かすために設計されたデータセンター向けGPU「aperia100 GPU」を発表しました。それとともに、pereをより速くするためのポイントを詳しく解説しています。データセンターおよび高性能コンピューティングのワークロードでは、アンペアは通常チューリングの約1.7倍の速度になります。AIの学習については、6倍速です。

アンペアで、NVIDIA は、一部のワークロードで業界標準の「浮動小数点 32」(FP32)に代わるものとして設計された新しいデジタル形式を使用しています。コンピュータが処理する数値は、8ビット、16ビット、32ビット、64ビット、あるいはそれ以上のビット数で、あらかじめ決められたメモリに格納されている。数字が大きいと処理しにくいので、小さいサイズを使うことができれば、それほど処理に苦労することはないでしょう。

FP32は32ビットの10進数を格納し、8ビットで数値の範囲を表し(いくらでも大きく、いくらでも小さくできる)、23ビットで精度を表す。 NVIDIAの主張は、多くのAIワークロードではこの23精度のビットは必ずしも必要ではなく、10ビットで同様の結果とより良い性能を得ることができる、というものである。32ビットから19ビットに減らすことで、多くの計算で大きな差が生まれます。

この新しいフォーマットはTensorFloat32と呼ばれ、A100のTensorCoreはこの奇妙なサイズのフォーマットを扱えるように最適化されています。これは、ダイの縮小とコア数の増加に加えて、AI学習で6倍という大幅なスピードアップを実現した方法です。

新しいデジタルフォーマットに加え、AmpereはFP32やFP64などの特定の計算において、大幅な性能向上を実現しました。素人目には、これらが直接FPSの向上につながるわけではありませんが、テンソル演算で全体的に3倍近く高速化していることの一端を担っているのです。

そして、さらに計算を高速化するために、「Fine-grained structured sparsity」という概念を導入しました。ニューラルネットワークは、最終的な出力に影響を与える重みと呼ばれる数値を大量に処理する。処理する数字が多くなると遅くなる。

しかし、これらの数字がすべて役に立つわけではありません。その中には、本来なら捨ててしまえるようなゼロもあり、より多くの数を同時に処理できるようになれば、大幅なスピードアップにつながります。スパース性は本質的に数字を圧縮することで、計算量を減らすことができる。圧縮データの処理には、新たに「スパーステンソルカーネル」を採用した。

これらの変更にもかかわらず、NVIDIAは、これが学習モデルの精度に大きく影響することはないはずだとしています。

最小の数値フォーマットの一つであるスパースINT8計算では、A100 GPU1個で1.25ペタフロップス以上という驚異的なピーク性能を実現しています。もちろん、これはある特定の種類の数字を扱った場合のみですが、それでも印象的です。

あなたが興味を持っているかもしれない記事

匿名者
匿名者

0 件の投稿

作家リスト

  1. admin 0 投稿
  2. 匿名者 0 投稿

おすすめ