随着年8月英伟达正式发布GeForceRTX系列显卡,高端显卡正式全面进入光线追踪效果的新一轮追逐。但在高昂的价格面前,不是每个玩家或者网吧业主愿意投入资金为尚需游戏支持的新技术买单。他们的要求可能很简单,吃鸡不卡,网游组队不掉帧,推得动高刷新率显示器即可。
是的,元价位段的甜点显卡需要一个更新,英伟达GeForceGTXTi诞生的理由十分充足。
这一次,GeForceGTX也没有循规渐进的使用GTX11系列的命名方式,而是直接跳到GTX16系列,似乎在暗示性能跨度很大。英伟达也不再为GeForceGTXTi制造FoundersEdition版本,量产成行的七彩虹iGameGeForceGTXTiUltra6G成为了首发测试的第一选择。那么GeForceGTXTi表现究竟如何,爱活首发评测奉上。
TU的化繁为简
在英伟达的官方定义中,这块七彩虹iGameGeForceGTXTiUltra6G的TU核心仍然属于图灵架构体系之内,并且为了与GeForceRTX划清界限,TU内没有包含可用于深度学习超采样DLSS的TensorCore,也没有用于支持光线追踪DXR的RTCore。
也就是说,TU是建立在图灵架构基础上重新设计的一款GPU,它既不是TU的阉割版,也不存在TensorCore和RTCore被屏蔽的说法。从芯片面积上就能很轻松证明这一点。GeForceRTX的TU芯片面积为mm,七彩虹iGameGeForceGTXTiUltra6G的TU芯片面积为有mm。
顺带一提,上一代同等定位的GeForceGTX0芯片面积为mm,采用的是台积电16nm制程。GeForceGTXTi与TU、TU相同,使用12nmFFN,其中N表示专为英伟达定制。相对GTX0,GTXTi芯片面积更大,线宽制程更小,因此GTX塞进的晶体管也就越多,数量达到66亿个。相比之下GTX0为44亿个。
即便没有TensorCore和RTCore,图灵架构的优势仍然得以体现。TU有3个GPC(GraphicsProcessingClusters,图形处理簇),每个GPC下包含4个TPC(TextureProcessingClusters,纹理处理簇),每个TPC下包含2个SM(StreamingMultiprocesor,流式多处理器),每个SM下包含64个CUDACore。因此就有了12个TPC,24个SM,个CUDACore的由来。
GeForceGTXTi更新重点就在SM上。
图灵架构下,SM内的整数运算单元拥有自己专门的指令发射端口,这使得浮点运算单元和整数运算单元可以并行执行任务。混合精度计算的方式最早出现在英伟达Volta架构的计算显卡中,被应用于游戏同样也有着相当实际的意义。按照现在游戏着色器程序,平均每条浮点指令,就会伴随38条整数流水指令和62条浮点流水指令。当两者并行执行,指令吞吐率就会升高,游戏速度自然得以提升。
举个例子,当上海通往北京的高铁只有一条,每次只能行驶一辆动车组,前往北京的和谐号和复兴号都需要排队,这就相当于GTX0上的浮点运算单元和整数运算单元依次排队的尴尬。这时候如果多修一条轨道,一条专门提供给和谐号运行,另一条专门提供给复兴号运行,客运效率加快。这就是GeForceGTXTi的做法。
提升性能的手段远不止一条。例如TU内置了FP16半精度浮点运算单元。近些年的游戏会大量运用到FP16单元解决不太需要高精度的画面特效,最直接的例子就是《孤岛惊魂5》的水面模拟。顺带一提,在GeForceRTX中不存在专门的FP16单元,这部分的处理工作由TensorCore来接替。
再例如TU中每个SM集成96KBSRAM,24个SM的SRAM总和为KB。SRAM可以被驱动程序或者开发人员定义分配成L1数据缓存或者SaredMemory。其中SaredMemory存在主要为了ThreadBlock内的CUDAThread可以共享数据。
L1数据缓存可以根据情况被定义成32KB或者最大64KB,这意味着TU中L1数据缓存总和可以达到KB,已经与L2缓存容量相当,随机数据存取性能相比帕斯卡架构大幅提升。
GTX0的GPL2缓存容量同样为KB,但TU拥有6个32位GDDR6内存通道,总共bit内存总线。GDDR6速率不仅比GDDR5快出40%,还更省电。GTXTi内存带宽也因此达到.1GB/s,比GTX0的GB/s高出50%。
6个内存通道与8个ROP(光栅操作处理器)单元绑定,TU也与GP一样总共有48个ROP。
此外,图灵架构内的内存压缩引擎在帕斯卡架构基础上获得了升级。所谓内存压缩引擎,就是根据画面特征侦测结果使用不同的无损压缩算法,从而有技巧的降低帧缓存写入压力、减少内存、L2缓存以及纹理等用户单元的数据传输量。图灵架构在游戏中能比帕斯卡架构获得高出50%的有效带宽提升。
最后,TU还有一招比率比率可变着色VarableRateShading,即VRS。
VRS会在一个游戏场景中给不同区域赋予不同的着色比率,因为在大多数情况中不是每一帧的每一个细节都需要独立着色。如下图所示,左侧代表不同着色比率的色彩示例,右侧代表画面中的不同色块代表了该区域使用的着色比率,只有1×1的部分会被独立着色,剩下部分会根据开发人员选择只渲染4个像素、16个像素或者其他非正方形像素比率。
这套技术针对平面游戏可以提供两套算法,分别是内容自适应着色ContentAdaptiveSading和运动自适应着色MotionAdaptive。两者分别在内容和动态效果上,通过精确分割区域,用低分辨率和模糊版本替代,节省运算量。有兴趣的同学可以点击这里跳转到爱活的图灵架构浅析中进一步了解。
简单总结一下,GeForceGTXTi的TU,通过针对游戏的新算法、硬件单元、GDDR6内存,在TDPW和有限的资源下,让游戏运行效率更高。
iGame装甲加持
让我们回到显卡本身。
iGame属于七彩虹旗下针对高端玩家的定制级显卡品牌,从8年成立至今已经与超过名玩家互动中汲取灵感,在散热组件、外观、供电部分都非常讲究。同时,七彩虹iGameGeForceGTXTiUltra6G也是GeForceGTXTi首发阵营中少见的三风扇配置的长尺寸显卡。
七彩虹iGameGeForceGTXTiUltra6G三风扇直径由左到右分别为90mm、90mm、80mm,酷炫的外观装甲下面连接了一块全覆盖式散热鳍片,同时显卡背面还配有辅助散热背板。要知道GeForceGTX0FoundersEdition显卡背面选择了裸露。
在大面积散热鳍片中贯穿了两个“S”镀镍热管,并排交汇直接与GPU核心热源接触,让散热效率提升。
做工层面,七彩虹为显卡提供了自行研发的I.P.P供电电感。并使用超量镀银技术,保证每个原件与PCB电路层接触点,都能工作上百万次的快速反应,以此减少显卡电损耗和增加稳定性。
七彩虹iGameGeForceGTXTiUltra6G配置了8pin电源供电,显卡接口提供1个DisplayPort、1个Dual-LinkDVI和1个HDMI接口。
英伟达TU仍然提供了对VirtualLinkUSBType-C的支持,也就是在未来,可通过一根USBType-C连接线VR眼镜实现画面传输和供电,但接口需要AIC自行添加。
不服跑个分
没有DLSS和光线追踪,GeForceGTXTi更纯粹,定价元的七彩虹iGameGeForceGTXTiUltra6G目标不言自明,它要用来替代目前主流的GeForceGTX06GB甜点显卡,也就是我们常说的GTX6。
在第一个章节中,我们已经描述了TU和GeForceGTXTi的优势。这里我们搬出命中注定的对手GeForceGTX06GBFoundersEdition,并且为了找到GTXTi的性能顶点,让属于跨级的GeForceGTXFoundersEdition作为陪跑。
然后是喜闻乐见的爱活测试平台,为接近现实数据,所有测试分数同样包含了平台CPU测试,比起分数或者帧数,探知GTXTi的位置更有意义。
Benchmark测试环节依然包括了3DMarkFireStrikeUltra、3DMarkFireStrikeExtreme、3DMarkTimeSpy、3DMarkTimeSpyExtreme,VRMarkCyanRoom、VRMarkBlueRoom。
随着游戏开发优化算法的迭代,发布时间越近的游戏,在新显卡上体现的帧率也会越高,英伟达甚至会从游戏开发之初介入,帮助游戏开发人员合理分配显卡资源,以此提高效能。
特别是DX12游戏中,我们发现七彩虹iGameGeForceGTXTiUltra6G帧率提升尤为明显,特别部分测试中赶超GeForceGTX,要知道GTX目前定价仍然在元上下,GTXTi一旦供货稳定,价格就会杀入元甚至更低行列。
从整体上来看,GTXTi相对GeForceGTX0提升了大概在15%到25%之间,游戏发布时间越近,提升越明显。
由于GeForceGTXTi甜点定位,显卡本身也更关时下流行的在线多人对战游戏,例如忽然爆火的ApeX英雄,以及传统的PUBG、堡垒之夜和守望先锋。
在高分辨率下,主流游戏提升很大,甚至可以超过50%,或者与GTX持平。如果使用更常见的0×分辨率运行,再配合G-SYNCUltimate、G-Sync或者英伟达认证的G-SyncCompatible显示器,效果不言自明。
关于显示器选择,英伟达已经给出了一套完整的官方列表,。
在温度控制上,三风扇设计确实起到了十分明显的效果,室温20摄氏度的环境中,GPU在满负荷运行状态下也仅有63摄氏度,显卡外装甲温度一直保持清凉状态。当然,也能看到接近GPU芯片部分的PCB温度非常高。
榨干最后性能
为了增加性价比,显卡超频是最简单有效的途径之一。图灵架构下引入的GPUBoost4.0以及NVIDIAScanner在TU上同样奏效,厂商可以根据英伟达开放的API开发自己的超频程序。例如七彩虹的iGameZoneII,可以即时看到GPU频率、显存、温度、风扇速度等信息,也可以通过软件左下角的环境设置配置风扇的运行速度。
重点还是搭配GPUBoost4.0以及NVIDIAScanner的一键超频。在七彩虹iGameGeForceGTXTiUltra6G接口挡板上,融入了一键超频按钮,同时在iGameZoneII界面左下角,也具备相同的一键超频功能。
超频功能开启之后,iGameZoneII会自动运行大约15分钟左右探知GPU体制,不断试探GPU极限。这段时间中,iGameZoneII会调用NVIDIAScanner不断GPU功耗墙极限,自动完成GPU频率、电压、温度之间反复博弈的功能。如果交给超频新手玩家,手动不断推敲至少也要耗费掉半天时间。
在超频完成之后,iGameZoneII会给出一个结果并询问是否付诸应用。从UI操作界面到易用性来看,iGameZoneII的友善程度比EVGAPrecisionX1好太多。
超频之后,我们再次对七彩虹iGameGeForceGTXTiUltra6G上进行对比。发现在最终幻想15TAABenchmark中,七彩虹iGameGeForceGTXTiUltra6G比GeForceGTX还要强劲。
此外,图灵架构对显卡视频引擎也做了增强,NVENC视频编码器可以支持到H.K30fps,视频解码支持HEVCYUV4:4:/12HDR30FPS、H.K、VP/12HDR等规格的硬件解码。速度更快、码率更低的视频解码速度也让更高清晰度直播变成了现实。
而就在前段时间,宣布了对OpenBroadcasterSoftware,即OBS的支持,GeForceGTXTi可以与虎牙、斗鱼直播软件相结合,通过硬件编码器让效率提高15%,进一步降低游戏主播们的成本。目前要求较高的游戏主播,通常会再购买一台直播PC负责对游戏转录、直播,配置麻烦,并且也不是大多数人能够承担。新显卡在一定程度上能够缓解这些问题。
写在最后:甜点显卡新征程
戳中元上下价位,图灵架构下重新设计的TU,再加上6GBGDDR6显存加持和TDPW低功耗,GeForceGTXTi进军主流游戏PC的意图很明显。事实上,它也做得很好,相对GeForceGTX0有20%以上的提升,并在部分环境中表现直逼GeForceGTX,GeForceGTX16系列的时代很快就会来临。
同样,本次测试中的七彩虹iGameGeForceGTXTiUltra6G表现可圈可点,三风扇长尺寸设计可以完全无视发热问题,界面友好的iGameZoneII可以让每一个玩家都能轻松用上NVIDIAScanner的一键超频,个性外观也符合主流侧透机箱的审美风格。
这让笔者非常期待基于TU的移动显卡,以及未来可能出现的TU(如果存在的话)的表现。毕竟实时光线追踪技术的圣杯还有一段路要走,注重性价比的玩家只关心当下游戏的表现。
而就算你在GeForceGTX和GeForceGTXTi之间纠结,笔者仍然推荐后者。原因很简单,图灵架构对游戏的优化指南,会成为未来一段时间内开发游戏的领路书,新游戏与新显卡配合只会越来越快,这一点就算是定位高出一级的GeForceGTX也无法比拟的。