首先我们必须明确一点,那就是【你不能被安培架构那个夸张CUDA数量给吓到了】
因为这个CUDA数量,【是真的】
但是这些晶体管,其实图灵架构时候就已经有了。只是安培架构以后【才被统计成了CUDA】
实际上就拿8nm工艺GA104来说,6144CUDA,其实256bit这么一个400mm核心差不多GM204体积,但是晶体管却是200亿以内,对比2080Ti的TU102 176亿没提升多少 。
你看着TU102 4608CUDA,GA104 6144看起来差距很大。
其实TU102只是INT32不能进行FP32,其实图灵架构里面。一个sm内部【有FP32和INT32两种CUDA结构,而计算单精度shading的只有FP32而已】
所以【INT32整数型单元,是不能shading的,但是很多游戏也有INT32计算,并不都是浮点类型。这部分游戏在新游戏偏多,这也就是为什么INT32的游戏都是新游戏导致20系列在老游戏对比10系列提升小的核心问题”】
因为10系列帕斯卡架构,FP32很强,但是没有INT32。而图灵架构的FP32偏弱,但是有了INT32 在新游戏提升很大。图灵架构的INT32不需要直接强制转换,帕斯卡如果计算INT32,需要浮点转整数。有延迟。
但是安培架构就很强了,他的每个ALU团簇,别看和图灵架构一样【内部同时有64FP32和64 INT32】
但是安培架构这个64 INT32,是可以执行32 FP32和32 INT32的。
相当于,安培架构的INT32可以全部视为FP32
相当于如果【完全没有INT32需求情况下,他的ALU团簇里面有128个CUDA都可以做FP32,自然是单精度翻倍】
因为这个CUDA数量,【是真的】
但是这些晶体管,其实图灵架构时候就已经有了。只是安培架构以后【才被统计成了CUDA】
实际上就拿8nm工艺GA104来说,6144CUDA,其实256bit这么一个400mm核心差不多GM204体积,但是晶体管却是200亿以内,对比2080Ti的TU102 176亿没提升多少 。
你看着TU102 4608CUDA,GA104 6144看起来差距很大。
其实TU102只是INT32不能进行FP32,其实图灵架构里面。一个sm内部【有FP32和INT32两种CUDA结构,而计算单精度shading的只有FP32而已】
所以【INT32整数型单元,是不能shading的,但是很多游戏也有INT32计算,并不都是浮点类型。这部分游戏在新游戏偏多,这也就是为什么INT32的游戏都是新游戏导致20系列在老游戏对比10系列提升小的核心问题”】
因为10系列帕斯卡架构,FP32很强,但是没有INT32。而图灵架构的FP32偏弱,但是有了INT32 在新游戏提升很大。图灵架构的INT32不需要直接强制转换,帕斯卡如果计算INT32,需要浮点转整数。有延迟。
但是安培架构就很强了,他的每个ALU团簇,别看和图灵架构一样【内部同时有64FP32和64 INT32】
但是安培架构这个64 INT32,是可以执行32 FP32和32 INT32的。
相当于,安培架构的INT32可以全部视为FP32
相当于如果【完全没有INT32需求情况下,他的ALU团簇里面有128个CUDA都可以做FP32,自然是单精度翻倍】