来谈谈为什么安培架构CUDA那么多，实际图形性能缺不高_nv显卡吧

nv显卡吧关注：90贴子：795

2回复贴，共1页

来谈谈为什么安培架构CUDA那么多，实际图形性能缺不高

首先我们必须明确一点，那就是【你不能被安培架构那个夸张CUDA数量给吓到了】
因为这个CUDA数量，【是真的】
但是这些晶体管，其实图灵架构时候就已经有了。只是安培架构以后【才被统计成了CUDA】
实际上就拿8nm工艺GA104来说，6144CUDA，其实256bit这么一个400mm核心差不多GM204体积，但是晶体管却是200亿以内，对比2080Ti的TU102 176亿没提升多少。
你看着TU102 4608CUDA，GA104 6144看起来差距很大。
其实TU102只是INT32不能进行FP32，其实图灵架构里面。一个sm内部【有FP32和INT32两种CUDA结构，而计算单精度shading的只有FP32而已】
所以【INT32整数型单元，是不能shading的，但是很多游戏也有INT32计算，并不都是浮点类型。这部分游戏在新游戏偏多，这也就是为什么INT32的游戏都是新游戏导致20系列在老游戏对比10系列提升小的核心问题”】
因为10系列帕斯卡架构，FP32很强，但是没有INT32。而图灵架构的FP32偏弱，但是有了INT32 在新游戏提升很大。图灵架构的INT32不需要直接强制转换，帕斯卡如果计算INT32，需要浮点转整数。有延迟。
但是安培架构就很强了，他的每个ALU团簇，别看和图灵架构一样【内部同时有64FP32和64 INT32】
但是安培架构这个64 INT32，是可以执行32 FP32和32 INT32的。
相当于，安培架构的INT32可以全部视为FP32
相当于如果【完全没有INT32需求情况下，他的ALU团簇里面有128个CUDA都可以做FP32，自然是单精度翻倍】

送TA礼物

IP属地:北京

来自Android客户端1楼2020-09-20 22:53回复

但是，安培架构所谓的【CUDA和单精度翻倍】
是【非常理论情况下，也就是INT32完全没有需求情况下，可以INT32全部做FP32】
正常游戏里面，即使是INT32很少，需要FP32做转换。也会有那么一部分。
所以安培架构，至少每个ALU团簇实际工作时候，那最64个INT32 里面有32个可以做FP32，但是另外32还是要继续INT32的。并不能都做FP32。
因为很多游戏，至少都有INT32。几乎没有完全0 INT32的游戏。
所以老黄理论上128CUDA都做FP32的那个单精度，【是正常游戏不会有的shading结构】
但是，实际应该是每个ALU团簇里面有96个CUDA基本可以覆盖FP32，另外32还是INT32情况占了大多数。
所以你可以大概这么理解为【安培架构其实CUDA按照75%计算，才是合理的。并是真的翻倍，至少游戏里面没有翻倍shading性能】
帧数是不可能翻倍的，因为图灵架构单精度不足，但他们INT32不弱。
安培对比图灵架构【仅仅是修复了图灵架构FP32太弱问题，但是安培架构的INT32和图灵架构的INT32基本上是一样的，不会有巨大提升】
相当于图灵架构你看着单精度低，但大量INT32弥补，但是很多游戏参差不齐。
但安培架构看着CUDA很多，更多都是为了弥补图灵架构FP32不足的问题，改善了INT32比例低的那部分游戏性能
相当于安培架构，修复了游戏参差不齐短板。巨大对比10系列做到了完美。
通俗解释就是如此。
【所以CUDA翻倍是真的，但性能不是翻倍，单精度算力翻倍不代表图形渲染shading性能产生游戏帧数翻倍】
这是一定要切记的，细节。
理性认清架构原理，避免被忽悠。但具体的提升幅度和改进也要承认。
规模翻倍，但性能不翻倍。这才是理性看法。
对AMD那边也是如此【人家说80CU应该是真的，但你还是以为80CU就比某个5700XT 40CU翻倍性能，那你就太天真了】
先看看还是256bit，你就知道这80CU有多少水分了。

有些东西真的不能只看表面数据