nv显卡吧 关注:90贴子:795
  • 2回复贴,共1

来谈谈为什么安培架构CUDA那么多,实际图形性能缺不高

取消只看楼主收藏回复

首先我们必须明确一点,那就是【你不能被安培架构那个夸张CUDA数量给吓到了】
因为这个CUDA数量,【是真的】
但是这些晶体管,其实图灵架构时候就已经有了。只是安培架构以后【才被统计成了CUDA】
实际上就拿8nm工艺GA104来说,6144CUDA,其实256bit这么一个400mm核心差不多GM204体积,但是晶体管却是200亿以内,对比2080Ti的TU102 176亿没提升多少 。
你看着TU102 4608CUDA,GA104 6144看起来差距很大。
其实TU102只是INT32不能进行FP32,其实图灵架构里面。一个sm内部【有FP32和INT32两种CUDA结构,而计算单精度shading的只有FP32而已】
所以【INT32整数型单元,是不能shading的,但是很多游戏也有INT32计算,并不都是浮点类型。这部分游戏在新游戏偏多,这也就是为什么INT32的游戏都是新游戏导致20系列在老游戏对比10系列提升小的核心问题”】
因为10系列帕斯卡架构,FP32很强,但是没有INT32。而图灵架构的FP32偏弱,但是有了INT32 在新游戏提升很大。图灵架构的INT32不需要直接强制转换,帕斯卡如果计算INT32,需要浮点转整数。有延迟。
但是安培架构就很强了,他的每个ALU团簇,别看和图灵架构一样【内部同时有64FP32和64 INT32】
但是安培架构这个64 INT32,是可以执行32 FP32和32 INT32的。
相当于,安培架构的INT32可以全部视为FP32
相当于如果【完全没有INT32需求情况下,他的ALU团簇里面有128个CUDA都可以做FP32,自然是单精度翻倍】


IP属地:北京来自Android客户端1楼2020-09-20 22:53回复
    但是,安培架构所谓的【CUDA和单精度翻倍】
    是【非常理论情况下,也就是INT32完全没有需求情况下,可以INT32全部做FP32】
    正常游戏里面,即使是INT32很少,需要FP32做转换。也会有那么一部分。
    所以安培架构,至少每个ALU团簇实际工作时候,那最64个INT32 里面有32个可以做FP32,但是另外32还是要继续INT32的。并不能都做FP32。
    因为很多游戏,至少都有INT32。几乎没有完全0 INT32的游戏。
    所以老黄理论上128CUDA都做FP32的那个单精度,【是正常游戏不会有的shading结构】
    但是,实际应该是每个ALU团簇里面有96个CUDA基本可以覆盖FP32,另外32还是INT32情况占了大多数。
    所以你可以大概这么理解为【安培架构其实CUDA按照75%计算,才是合理的。并是真的翻倍,至少游戏里面没有翻倍shading性能】
    帧数是不可能翻倍的,因为图灵架构单精度不足,但他们INT32不弱。
    安培对比图灵架构【仅仅是修复了图灵架构FP32太弱问题,但是安培架构的INT32和图灵架构的INT32基本上是一样的,不会有巨大提升】
    相当于图灵架构你看着单精度低,但大量INT32弥补,但是很多游戏参差不齐。
    但安培架构看着CUDA很多,更多都是为了弥补图灵架构FP32不足的问题,改善了INT32比例低的那部分游戏性能
    相当于安培架构,修复了游戏参差不齐短板。巨大对比10系列做到了完美。
    通俗解释就是如此。
    【所以CUDA翻倍是真的,但性能不是翻倍,单精度算力翻倍不代表图形渲染shading性能产生游戏帧数翻倍】
    这是一定要切记的,细节。
    理性认清架构原理,避免被忽悠。但具体的提升幅度和改进也要承认。
    规模翻倍,但性能不翻倍。这才是理性看法。
    对AMD那边也是如此【人家说80CU应该是真的,但你还是以为80CU就比某个5700XT 40CU翻倍性能,那你就太天真了】
    先看看还是256bit,你就知道这80CU有多少水分了。有些东西真的不能只看表面数据


    IP属地:北京来自Android客户端2楼2020-09-20 23:02
    回复


      IP属地:北京来自Android客户端5楼2021-03-03 13:09
      回复