CES 2025發(fā)布的RTX5090D顯卡牽動了所有玩家的心,全新架構(gòu)不僅帶來了更強的性能,也為玩家?guī)砹酥T多全新的技術(shù)。作為板卡品牌的領(lǐng)頭羊,華碩也推出了全新的RTX 5090 D系列顯卡: ROG ASTRAL 夜神水冷、夜神風冷和TUF GAMING 風冷(MSRP價格為16499元)。其中ROG ASTRAL 夜神 RTX5090 D 32G GAMING以其卓越的性能、豪華的散熱設(shè)計以及創(chuàng)新的技術(shù)成為關(guān)注的焦點,下面我們就為您帶來ROG ASTRAL 夜神 RTX5090 D顯卡的首測。
NVIDIA RTX 5090產(chǎn)品綜述|圖片(2)|參數(shù)|報價|點評(2)
在RTX 50系顯卡中,AI的比重有著明顯提升,不管在架構(gòu)層面、游戲領(lǐng)域,還是內(nèi)容創(chuàng)作,AI已經(jīng)滲透到各個實際應(yīng)用領(lǐng)域,不再是簡單的文生圖和語言問答那么簡單。
如果說RTX 40系顯卡是靠硬件算力來推動AI工作,那么RTX 50系顯卡的硬件算力則成為了AI應(yīng)用的“保障性”條件,一切的改變都是為了讓AI有更充足的“后盾”。而相輔相成的,AI技術(shù)的應(yīng)用,也讓計算有了更低的成本。正如NVIDIA所展示的那樣——神經(jīng)渲染的時代已經(jīng)到來。
1ROG ASTRAL夜神RTX5090 D冷酷造型配4風扇疾速散熱
華碩ROG ASTRAL夜神RTX5090 D顯卡在外觀上延續(xù)了ROG家族的經(jīng)典設(shè)計風格,同時融入了全新的元素。顯卡整體采用黑色為主色調(diào),輔以銀色的點綴以及顯眼的ROG的logo,非常有辨識度,棱角分明的設(shè)計在視覺上更具沖擊力。
由于RTX 5090D的功耗增加至600W,所以對散熱也有了更高的要求,ROG ASTRAL夜神RTX 5090D顯卡采用了豪華的8熱管設(shè)計,值得關(guān)注的是,本次夜神采用了華碩專利VC技術(shù), 讓每根熱管的散熱效率進一步提高,其獨特的四風扇設(shè)計更是引人注目,相較于上一代的三風扇設(shè)計,氣流和壓力提高了最多20%。這四個風扇均采用高質(zhì)量的材質(zhì)和精密的制造工藝,能夠在低噪音的前提下提供強大的風力。同時,風扇的轉(zhuǎn)速可以根據(jù)顯卡的負載情況自動調(diào)節(jié),以達到最佳的散熱效果。
除了四風扇設(shè)計外,ROG ASTRAL夜神RTX 5090 D顯卡還采用了華碩專利的真空腔均熱板設(shè)計。這一設(shè)計利用真空腔內(nèi)的液體蒸發(fā)和冷凝原理,將GPU產(chǎn)生的熱量迅速傳遞到散熱片上,并通過風扇將其排出機箱。同時,顯卡還配備了帶有銑削凹槽的熱導(dǎo)板和優(yōu)質(zhì)的相變硅脂墊,進一步優(yōu)化了熱傳導(dǎo)路徑,提高了散熱效果,具體的溫度表現(xiàn)我們會在后面的項目中進行測試。
從尺寸上來看,ROG ASTRAL夜神RTX5090D顯卡的尺寸為357.6×149.3×76mm,相較于上一代產(chǎn)品有了明顯的增加,不過得益于整體的緊湊設(shè)計,顯卡限長360mm以上的中高端機箱都可以容納這款顯卡。
顯卡的背板采用了金屬材質(zhì),不僅增強了顯卡的結(jié)構(gòu)強度,還提升了散熱效果。背板上印有ROG的logo和標語,彰顯出顯卡的尊貴與不凡。
在接口方面,這款顯卡自帶了2個HDMI 2.1b 接口,3個DP 2.1a接口,其中DP 2.1b接口為UHBR20規(guī)格,可達 80Gbps 帶寬,最高支持8K (7680x4320) @165Hz(DSC);4K (3840x2160) @480Hz(DSC)協(xié)議,可以提供5個屏幕輸出,滿足多屏拼接的需求。
值得一提的是,ROG ASTRAL夜神RTX5090D顯卡還提供了一個Dual BIOS開關(guān),Q模式(quiet)為靜音模式,可以在損失極小性能的前提下獲得更好的經(jīng)驗表現(xiàn),P模式(performance)為性能模式,可以輸出更強大的性能。本次評測的所有數(shù)據(jù)均在P模式也就是性能模式下測得。
另外,ROG ASTRAL夜神RTX5090D顯卡還自帶了一條LED燈帶,支持ARGB光效同步,可以在Aura Sync神光同步中設(shè)置光效的顏色。
除了RTX 5090D的新特性之外,ROGASTRAL夜神RTX 5090D顯卡還融入了多項創(chuàng)新技術(shù),為用戶帶來更加便捷、高效的使用體驗。
GPU Tweak III是華碩推出的一款強大的顯卡調(diào)校軟件。它支持實時監(jiān)測顯卡的運行狀態(tài),包括溫度、風扇轉(zhuǎn)速、功耗等關(guān)鍵參數(shù)。同時,用戶還可以通過該軟件對顯卡進行精細的調(diào)校,包括調(diào)整核心頻率、顯存頻率、電壓等參數(shù),以達到最佳的性能表現(xiàn)。此外,GPU Tweak III還支持一鍵超頻功能,讓用戶能夠輕松實現(xiàn)顯卡的超頻操作。
Fan Connect II是華碩推出的一款機箱風扇控制器。它支持連接多個機箱風扇,并根據(jù)顯卡的溫度自動調(diào)節(jié)風扇轉(zhuǎn)速,以實現(xiàn)最佳的散熱效果。這一設(shè)計不僅提高了散熱效率,還降低了噪音水平,為用戶帶來更加舒適的使用環(huán)境。
2NVIDIARTX BlackWell架構(gòu)
本次發(fā)布的GeForce RTX 50系顯卡由全新的NVIDIA BlackWell架構(gòu)打造,完整的GB202核心包括12個圖形處理集群(GPCs);96個紋理處理集群(TPCs);192個流式多處理器(SMs),和一個512bit總位寬,包含16個32bit內(nèi)存控制器的內(nèi)存接口。
對應(yīng)到我們熟悉的數(shù)字,則是24576個CUDA,192個RT Cores;768個TensorCores以及768個紋理單元。由于第5代Tensor Cores采用了更高速的FP4運算,完整的GB202可達到恐怖的4000 AI TOPS;而第4代RT Cores采用的新的幾何運算模型,也讓它可以達到360 RT TFLOPS。
另外,每個SM單元中還包含兩個FP64內(nèi)核,總共384個。FP64內(nèi)核主要目的是確保帶有FP64代碼的程序可正常運行,并確保準其確性。這對于某些專業(yè)領(lǐng)域來說至關(guān)重要,比如醫(yī)學(xué)或?qū)I(yè)計算領(lǐng)域。
GPC是GPU中占據(jù)主導(dǎo)地位的高級模塊,所有關(guān)鍵的圖形處理單元都位于GPC中。在RTX 50系中,GPC整體的布局變化不大。
每個GPC包含一個專用的光柵引擎,兩個ROP分區(qū)。每個分區(qū)包含8個單獨的ROP單元和8個TPC,每個TPC包含1個變形引擎和兩個SM單元。
完整的GB202核心還包含128MB的L2緩存,而RTX 5090則包含96MB的L2緩存。大緩存的變更自RTX 40系顯卡便已開始,所有程序都可以受益于這個高速大容量的緩存池,而光線跟蹤(特別是路徑跟蹤)等復(fù)雜操作將產(chǎn)生巨大的好處。
SM單元是GPU架構(gòu)中的核心組件,在GPU并行處理中發(fā)揮著關(guān)鍵作用,它通過其各種核心(CUDA,Tensor,RT),高效的warp調(diào)度,內(nèi)存管理以及對AI等現(xiàn)代工作負載的支持實現(xiàn)大規(guī)模并行。本代RTX 50系顯卡中SM單元的變化非常大,下面我們詳細來了解一下。
完整的GB202核心包含192個SM單元,每個SM包含128個CUDA核心;1個第4代RT Core;4個第5代Tensor Core;4個紋理單元。1個256KB的寄存器文件和128KB的L1共享緩存,它可以根據(jù)圖形和計算工作負載的需要配置不同的大小。
在BlackWell架構(gòu)的SM單元中,INT32整數(shù)運算的數(shù)量增加了一倍。與Ada架構(gòu)的SM單元相比,實現(xiàn)了INT32與FP32內(nèi)核的完全統(tǒng)一。不過在時鐘周期內(nèi),統(tǒng)一內(nèi)核只能作為FP32或INT32內(nèi)核運行。
與BlackWell架構(gòu)一同推出的還有GDDR7顯存,采用pam3信號技術(shù),它有著更高頻率與更低電壓的特點。
本代RTX 5090配備28 Gbps GDDR7顯存,峰值顯存帶寬可達1.792 TB/秒,而RTX 5080配備更高的30 Gbps時鐘頻率的GDDR7顯存,峰值內(nèi)存帶寬可達960 GB/秒。結(jié)合新的引腳編碼方案,GDDR7實現(xiàn)了顯著增強的信噪比(SNR)。
通過增加信道密度、改進的pam3信噪比、先進的均衡方案、重新設(shè)計的時鐘架構(gòu)和增強的I/O訓(xùn)練,GDDR7提供了更高的帶寬。這些進步還顯著提高了能源效率,提供了更好的性能和延長電池壽命,特別是在移動端,或功率受限的系統(tǒng)中。
BlackWell 第4代RT Core
在第4代RT Core中,簡單來說它相比Ada架構(gòu),在渲染光線追蹤場景時,提供了兩倍光線三角形相交測試吞吐量,并引入了Mega Geometry的結(jié)構(gòu)算法。
Opacity Micromap Engine
不透明微引擎在Ada架構(gòu)中已經(jīng)引入,這里不再過多講述,它主要的作用是優(yōu)化光線追蹤渲染,可大幅減輕著色器的工作負擔。
比如樹葉之類的復(fù)雜物體,不同的光線都會影響它的表現(xiàn)狀態(tài),以及樹葉之間的光線反彈,所以對于光線追蹤的計算量是巨大的。
不過Opacity Micromap Engine可以將光線追蹤特性烘焙到不透明蒙版中,所以那些不規(guī)則形狀和半透明的對象,也就能夠更快更精準的渲染出來,從而極大減輕著色器的工作負擔。
Mega Geometry
除了上面提到的Opacity Micromap Engine,在BlackWell架構(gòu)中,還引入了Mega Geometry(大型幾何)的運算概念。其中包含了TriangleClusterIntersection Engine、Linear Swept Spheres等新硬件。
新的BlackWellRT核心包含一個Triangle ClusterIntersection Engine三角形群集交集引擎,它能夠進一步加速大型幾何的光線追蹤,同時它的工作還包含標準的光線三角形交集測試。Linear Swept Spheres則主要用于光線追蹤中精細的幾何形狀,比如發(fā)絲。
Mega Geometry的理念與虛幻5引擎的Nanite虛擬微多邊形幾何體系統(tǒng)相同,在現(xiàn)代游戲中,模型更加細致,需要渲染的工作量大幅增加,如果全部按照最精細的級別處理,將會耗費極大的計算資源,所以將LOD分級便應(yīng)運而生。
簡單來說,就是根據(jù)一個物體距離攝像機的遠近,來調(diào)節(jié)物體的細節(jié)水平。此前《黑神話:悟空》便應(yīng)用了這樣的技術(shù),它消除了LOD的繁瑣任務(wù),可以掃描并導(dǎo)入極高精細程度的模型。并且,這不會影響性能。仍然可以獲得實時幀速率。
在MegaGeometry中提供了新的BVH構(gòu)建功能,它采用三角形集群作為一級基元。新的集群加速結(jié)構(gòu)Cluster-level Acceleration Structures(CLAS)可以從256個三角形空間緊湊批次中生成,然后使用CLAS集合作為輸入來構(gòu)建最終的BVH。
不過虛幻5引擎并非專為BlackWell而設(shè)計,MegaGeometry的工作只是更高效的讓游戲引擎調(diào)用API。由于其輸入?yún)?shù)完全由GPU內(nèi)存驅(qū)動,游戲引擎可以在GPU上更高效的運行LOD選擇、動畫、剔除等邏輯。同時最大限度減少對CPU的往返,進而減少與BVH管理相關(guān)的CPU開銷。
然而在更加精細化的游戲引擎中,按照傳統(tǒng)的流程,應(yīng)用程序必須從場景中的每一幀的所有對象中構(gòu)建一個頂層加速結(jié)構(gòu)。而隨著更大的世界規(guī)模以及繁雜的場景物體,僅靠LOD分級仍然難以實現(xiàn)質(zhì)的變化。
為了解決這個問題,Mega Geometry引入了一種新型的頂層加速結(jié)構(gòu)(TLAS),稱為分區(qū)頂層加速結(jié)構(gòu)(PTLAS)。
它無需在每一幀都從頭開始構(gòu)建一個新的TLAS,PTLAS能夠辨別從一幀到另一幀,哪些對象是靜態(tài)的。
應(yīng)用程序通過將對象聚合到分區(qū)中,并僅更新那些已更改的對象來節(jié)省開銷。
例如,游戲可以將靜態(tài)游戲世界的各個部分放入所屬的分區(qū)中,同時將動態(tài)對象分離到每幀重建的“全局分區(qū)”中。與傳統(tǒng)的TLAS相比,請求的分區(qū)更新越少,節(jié)省的運行時開銷就越大。
另外好消息是,Mega Geometry可通過底層API進行擴展支持,適用于所有支持光線追蹤的NVIDIA GPU,也就是從圖靈架構(gòu)(Turing)開始。
不過BlackWell的第4代RT Core是專門為MegaGeometry而設(shè)計的,硬件中的特殊集群引擎實現(xiàn)了幾何和BVH數(shù)據(jù)的新壓縮方案,同時是第3代RT Core光線三角形相交率的2倍。因此,BlackWell架構(gòu)可以實現(xiàn)用更小的顯存,更高效的處理這些內(nèi)容。
Linear Swept Spheres (LSS)
LSS(線性掃描球體)是BlackWell架構(gòu)中新增的圖形語言,它極大地簡化了復(fù)雜頭發(fā)和毛發(fā)的渲染開銷,并能提升質(zhì)量。
此前渲染頭發(fā)仍然需要最基礎(chǔ)的三角形來表達物體,如圖所示,發(fā)絲中的一個線段需要6個三角形,而一根頭發(fā)便需要無數(shù)個三角形來確保其精度。比如我們的頭發(fā)則需要600萬個三角形來表達。
Blackwell架構(gòu)的RT Core引入了LSS新語言的支持,它類似于鑲嵌曲線,允許靈活地近似各種鏈型。并且球體也更適合發(fā)行構(gòu)建。
LSS的引入可以讓發(fā)型構(gòu)建,減少3倍的數(shù)據(jù)量,速度大約快了2倍,并可以使用更少的顯存,獲得更高的幀數(shù)。
BlackWell 第5代TensorCore
本代架構(gòu)除了RT Core進行了改進升級,專門負責AI及高性能計算的Tensor Core也迎來了重大升級。
與NVIDIAAda Tensor Cores一樣,Blackwell架構(gòu)的TensorCores支持FP16、BF16、TF32、INT8、INT4和Hopper的FP8 Transformer Engine。
Blackwell還增加了對FP4和FP6Tensor Core操作的新支持,以及新的第二代FP8 Transformer Engine。
FP4精度支持
FP4提供了一種較低的量化方法,類似于文件壓縮,可以減小模型大小,提升生成速度。與FP16精度(大多數(shù)型號發(fā)布的默認方法)相比,F(xiàn)P4只需要不到一半的顯存。FP4使用NVIDIA TensorRT提供的量化方法,幾乎沒有質(zhì)量損失。
例如,目前最強的AI繪畫模型FLUX.dev ,在FP16上需要超過23GB的顯存,而這意味著它只能由每一代的期間產(chǎn)品RTX 4090,RTX 5090和專業(yè)GPU來支持。
而對于FP4,F(xiàn)LUX.dev測試對顯存的需求將少于10GB,讓更多80級和70級的顯卡均能在本地運行。
在性能和效果對比上,使用帶有FP16的RTX 4090,F(xiàn)LUX.dev模型可以通過30個步驟在15秒內(nèi)生成圖像。使用帶有FP4的RTX 5090,只需5秒多一點就可以生成圖像。
DLSS 4
DLSS 4是本代RTX 50系顯卡帶來的重大更新,對于玩家來說它也是最能實際感受到的。最新版本DLSS 4帶來了新的多幀生成(MFG),具有更快的性能和更低的顯存使用等特性。包含超分辨率(SR),光線重建(RR)和深度學(xué)習抗鋸齒(DLAA)模型,可進一步增強圖像質(zhì)量和穩(wěn)定性。
這些新技術(shù)由RTX 50系GPU和第5代Tensor Cores支持,并由云端的NVIDIA Al超級計算機提供支持。不過對于手持RTX 40系或更早期顯卡的玩家還無緣體會。DLSS 4新增的多幀生成,目前僅支持RTX 50系顯卡。
Multi Frame Generation(多幀生成)
DLSS多幀生成能夠通過每個傳統(tǒng)渲染幀,生成多達三幀的額外幀來提高FPS。新的幀生成AI模型相比之前的幀生成方法快40%,使用的顯存減少30%,并且每個渲染幀只需要運行一次就可以生成多個幀。高效的AI模型代替了上一代的硬件光流模型,從而加快了光流場的生成速度,并顯著降低了生成額外幀的計算成本。
從生成幀的層面來說,上一代DLSS 3幀生成基于CPU的幀節(jié)奏,而這種方式可能會讓生成的幀與額外的幀混合在一起,導(dǎo)致每幀之間的幀節(jié)奏不太一致,影響平滑性。
為了解決生成多幀的復(fù)雜性,Blackwell架構(gòu)將幀節(jié)奏邏輯轉(zhuǎn)移到顯示引擎,使GPU能夠更精確地管理顯示時序,從而避免與額外幀混合的情況,進而提升幀生成的準確性及穩(wěn)定性。
而第5代Tensor Cores擁有更高的計算能力,這使得它們能夠更快地執(zhí)行計算光流和生成多幀的一系列AI模型。并更好地調(diào)度DLSS AI處理、圖形渲染和幀速度算法。
Transformer模型
此前DLSS所用的模型為Convolutional Neural Network,即我們熟悉的卷積神經(jīng)網(wǎng)絡(luò)(CNN),CNN的工作原理是將像素局部聚集在一起,并以樹的形式從低到高地進行分析數(shù)據(jù)。這種結(jié)構(gòu)的計算效率很高,這也是為什么它被稱為卷積神經(jīng)網(wǎng)絡(luò)。
而DLSS4引入了基于Transformer的AI模型,用于DLSS超分辨率、DLSS光線重建和深度學(xué)習抗鋸齒(DLAA),從而提高圖像質(zhì)量和渲染平滑度?;赥ransformer模型體系結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),擅長處理涉及順序和結(jié)構(gòu)化數(shù)據(jù)的任務(wù)。簡單來說,就是Transformer能夠抓住“重點”,可以更好地理解和渲染復(fù)雜場景。
與CNN模型相比,Transformer更容易在更大的像素窗口中識別更遠距離的模式,具有一定的學(xué)習能力和“前瞻性”。
本代DLSS 4將基于CNN的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),轉(zhuǎn)變?yōu)榛赥ransformer的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在許多場景下圖像質(zhì)量都有著顯著提升。
Shader Execution Reordering (SER) 2.0
Shader Execution Reordering(著色器重排序)是在RTX 40系架構(gòu)中引入的一項技術(shù),它可以使帶有光追的程序有效地重組GPU上的大量并行線程,以最大限度地利用硬件。
因為連貫執(zhí)行神經(jīng)工作負載的線程可以直接發(fā)送到Tensor Core,所以SER也顯著加速了神經(jīng)著色。在Blackwell架構(gòu)中,SER的核心重排序邏輯效率是原來的兩倍,減少了重排序開銷并提高了精度。從而進一步提高了該功能的有效性。這項功能更多地是為應(yīng)用程序開發(fā)者而設(shè)計,它僅需一個小的API改動,即可執(zhí)行重排序操作,進而提升總體項目的負載性能。
3測試平臺簡介
首先介紹一下測試平臺,為了保障ROG ASTRAL夜神RTX 5090 D顯卡的性能發(fā)揮,我們的平臺也再次進行了全面更新。
本次測試平臺采用了AMD的9800X3D和和ROG X870E HERO主板的搭配,考慮到顯卡的功耗大幅提升,我們采用了華碩的雷神3代1600W電源。華碩ROG雷神3代1600W電源是專為高性能電競主機設(shè)計的高端產(chǎn)品,采用氮化鎵方案,功率高達1600W,配備磁吸OLED屏幕和全模組接口,支持智能散熱和電路保護,符合ATX 3.1規(guī)范,具備雙原生12+4Pin模組接口及GPU-First顯卡優(yōu)先穩(wěn)壓技術(shù),獲得80 PLUS鈦金牌認證和Cybenetics Lambda A+低噪聲認證,是電競愛好者和高端PC用戶的優(yōu)選。
RTX 5090采用了速度更快的PCIe5.0x16,其帶寬達128GB/s,用于顯卡;PCIe5.0x4則為固態(tài)硬盤提供32GB/s的速度,如致態(tài)TiPro9000固態(tài)硬盤,實測讀寫速度極高,搭配高端CPU、RTX 5090顯卡及高頻內(nèi)存構(gòu)成頂級平臺。致態(tài)TiPro9000的隨機性能出色,遠超PCIe4.0產(chǎn)品,能大幅提升系統(tǒng)、游戲及創(chuàng)作軟件的響應(yīng)速度,減少加載延遲,確保游戲場景切換流暢無卡頓。
首先看一下GPU-Z的參數(shù),因為測試時RTX 5090 D的性能還未解禁,GPU-Z還有部分參數(shù)無法識別。ROG ASTRAL夜神RTX 5090D顯卡采用GB202核心,采用TSMC 4nm定制工藝(TSMC 4 nm NVIDIA Custom Process),芯片面積達到了堪稱豪華的750平方毫米,使用了PCIE×16 5.0帶寬。
ROG ASTRAL夜神RTX 5090 D顯卡擁有21760個CUDA,相比RTX 4090多33%,Boost頻率達到了2580MHz,相比標頻的2407MHz提升非常大。
此外,這款顯卡還采用32GB GDDR7顯存,位寬為512bit,目前由于GPU-Z無法識別顯存類型,所以仍然按照上一代來計算,所以顯示有誤,實際的顯存帶寬達到了1792 GB/s,光柵單元和紋理單元為176和680。
4理論性能測試
下面先進行的是用來衡量顯卡DX11理論性能的3DMARKFS套裝:ROG ASTRAL夜神RTX 5090 D顯卡FS,FSE,FSU三者分別對應(yīng)顯卡在1080P、2K、4K的理論性能,取顯卡分數(shù)實際測試結(jié)果如下:
在針對顯卡DX11性能的3DMARK FS套裝測試中,ROG ASTRAL夜神RTX 5090 D顯卡的提升對比RTX 4090,在三檔分辨率中的提升分別為,22%/33%/35%,綜合提升約為30%。
而在針對DX12環(huán)境下的Time Spy和Time Spy Extreme測試中,ROG ASTRAL夜神RTX 5090 D顯卡相較RTX 4090的提升分別為:TS提升34%;TSE提升34%,綜合提升約為34%。
PortRoyal是3DMARK中專門針對光追性能的測試項,ROG ASTRAL夜神RTX 5090 D顯卡相較RTX 4090的提升約為46%。
綜合來看,ROG ASTRAL夜神RTX 5090 D顯卡的理論性能相較RTX 4090的提升約為37%。
下面我們再來看看3DMARK中新增的一些具體應(yīng)用場景的測試。
Speed Way這項測試結(jié)合了實時光線追蹤和傳統(tǒng)渲染技術(shù)來測量顯卡性能。場景含有光線追蹤反射、實時全局光照、網(wǎng)格著色器、體積照明、粒子和后處理效果。所以SW的測試基本可以看做次世代3A游戲基準。
ROG ASTRAL夜神RTX 5090 D顯卡對比RTX 4090,提升達到了驚人的49%。
在DLSS的理論測試中,有著較大變化,共分為兩種模型。DLSS 3采用上一代的CNN模型,而最新的多幀生成,則采用了Transformer模型,并且多幀生成可調(diào)節(jié)生成幀的數(shù)量。
從測試結(jié)果來看,DLSS 4 2X基本可以看作是DLSS 3的幀生成,但由于使用的模型不同,在幀數(shù)上還是有一定提升的,尤其在1080p分辨率下。
而相比上一代DLSS 3,DLSS 4 4X模式下,幀數(shù)提升在75-80%之間,即便是8K分辨率,也能達到247幀的成績。
通過DLSS的理論測試,不難發(fā)現(xiàn)8K@240幀對于這張ROG ASTRAL夜神RTX 5090 D顯卡來說早已不是觸不可及的目標,而在4K分辨率下,更是能達到恐怖的450幀。
下面我們先實際測試DLSS 4在游戲中的表現(xiàn)如何,能否達到理論測試的提升效果。
5DLSS 4性能測試
本次DLSS 4在解禁首日,便可支持75款游戲或應(yīng)用。除了游戲中首發(fā)支持外,對于尚未集成的游戲,可在NVIDIA APP中進行直接調(diào)節(jié)非常方便。
在DLSS 4的測試中,首先來看《賽博朋克2077》,我們會進行多角度對比,來看看不同DLSS的設(shè)置下,三檔畫質(zhì)的幀數(shù)表現(xiàn)。
在所有測試中,為保證縮放比例固定,我們均選擇在質(zhì)量模式下進行。
傳統(tǒng)DLSS 2的測試中,使用CNN模型DLSS,可以看到即便是ROG ASTRAL夜神RTX 5090 D顯卡在4K分辨率下,光追超級畫質(zhì)也僅有103幀,而在光追超速模式下為67幀。
DLSS 3的測試依然為CNN模型,增加幀生成。可以看到DLSS 3已經(jīng)可以大幅提升幀數(shù),相較DLSS 2,在4K超級畫質(zhì)/光追超級/光追加速的提升分別為42%/55%/68%,已經(jīng)是非常驚人的成績了。
在DLSS 4的測試中,模型更改為Transformer,開啟多幀生成,首先測試3X下的表現(xiàn)。
ROG ASTRAL夜神RTX 5090 D顯卡在4K超級畫質(zhì)/光追超級/光追加速中,相較DLSS 3幀生成的提升分別為44%/48%/49%,將幀率再次拉至新高度,即便在光追超級畫質(zhì)下,依然能達到240幀左右的成績。
另外注意,在1080p分辨率的超級畫質(zhì)中,已經(jīng)達到了驚人的615幀!雖然僅僅是超級畫質(zhì),但這依然是標準的3A游戲《賽博朋克2077》。
DLSS 4最后的測試為Transformer模型4X幀生成模式,在4K超級畫質(zhì)/光追超級/光追加速中,相較DLSS 4的3X幀生成的提升分別為27%/26%/28%,即便在光追加速畫質(zhì)中,依然能穩(wěn)定在200幀以上。
并且你沒有看錯,在4K超級畫質(zhì)中,達到了362幀的成績,已經(jīng)突破了目前顯示器的極限。而對比DLSS 3幀生成,DLSS 4 4X分別提升為83%/86%/91%。
除了幀數(shù)上的提升,DLSS 4對于畫質(zhì)表現(xiàn)如何,下面我們來看看實機截圖對比。
可以看到在采用Transformer模型的DLSS 4中,物體表面的紋理細節(jié)更清晰。即便是沒有模型面覆蓋的銹跡,DLSS 4依然能精準還原。
同理,墻上的裂紋在DLSS 4中有更明顯的痕跡。并且整體畫面相較于DLSS 3,更通透明亮。大家也可下載4K圖片自行比對。
《漫威爭鋒》是近期大火的FPS+MOBA類網(wǎng)游,最初被看作《守望先鋒》的替代品,但實際游玩效果,無論畫面還是玩法,都更勝一籌。
截至目前,Steam已經(jīng)有超過18萬評價,整體為特別好評。而且《漫威爭鋒》是免費網(wǎng)游,大家下載嘗鮮DLSS 4。
首測發(fā)布前《漫威爭鋒》尚未在游戲中集成DLSS 4,這里也舉例說明在NVIDIA APP中如何開啟DLSS 4。
打開NVIDIA APP后,切換至圖形選項卡,找到對應(yīng)的游戲,拉至最下方【驅(qū)動程序設(shè)置】,找到DLSS模型預(yù)設(shè),將內(nèi)部選項全部調(diào)節(jié)至最新后,開啟DLSS幀生成4X,即可享受幀數(shù)的暴力加成。
注意在調(diào)節(jié)后需重啟游戲,且游戲中的DLSS設(shè)置不會發(fā)生變化,仍然可調(diào)節(jié)質(zhì)量、平衡、性能等擋位。
對于一款競技網(wǎng)游來說,高幀率比畫面更重要,使用ROG ASTRAL夜神RTX 5090 D顯卡在4K分辨率下,DLSS 2質(zhì)量模式已經(jīng)能夠達到164幀的電競級幀率,不過這絕大部分歸功于顯卡本身強悍的性能。
在4K分辨率下的DLSS 3幀生成模式中,相比DLSS 2在質(zhì)量模式中提升了36%,并輕松突破200幀。
而在DLSS 4 4X多幀生成中,4K分辨率相比DLSS 3質(zhì)量模式再提升85%,一舉突破400幀,表現(xiàn)同樣優(yōu)秀。
在畫面對比中,DLSS 4 4X的四檔畫質(zhì)也很難看出區(qū)別,角色的頭發(fā)、衣服,遠處的建筑涂繪,基本都和原生畫質(zhì)分毫不差。
從目前兩款支持DLSS 4游戲的測試中可以明顯看出,DLSS 4確實有著質(zhì)的飛躍,在幀數(shù)大幅提升的同時,畫質(zhì)相比DLSS 3也更好。
這里不禁讓人感嘆:這真是沒見過的科技??!其實放在以前,多幀生成是大家想都不敢想的方向,甚至是想不到的方向,然而NVIDIA不僅做出來了,并且效果絕不含糊。只能說NVIDIA再次領(lǐng)先了友商一個時代。
6常規(guī)游戲性能測試
除了支持DLSS 4的游戲,我們同樣測試了一些主流的3A大作和支持DLSS 3的游戲,為更多玩家提供參考方向。
《黑神話:悟空》是一款婦孺皆知的國產(chǎn)虛幻5巨制,自帶DLSS 3幀生成。我們的兩項測試也全部開啟幀生成,均為影視級畫質(zhì)。
從上下兩張圖的對比,很難不讓人懷疑是我們的成績放反了。但在《黑神話:悟空》中,至少使用NVIDIA顯卡,開啟全景光追后,部分幀數(shù)反而更高。
從ROG ASTRAL夜神RTX 5090 D顯卡這張卡的實測結(jié)果來看,4K分辨率下質(zhì)量擋位便能達到百幀的流暢水準,對于很多風景黨來說,可以既享受高幀率的同時,又不損失畫質(zhì)。
《燕云十六聲》是網(wǎng)易開發(fā)的一款國產(chǎn)武俠大作,在DLSS 2的測試中,除了DLSS質(zhì)量擋位與原生畫質(zhì)拉開差距,其他DLSS擋位出現(xiàn)了明顯的則出現(xiàn)了明顯的幀數(shù)瓶頸。至少從圖形顯示來看,低分辨率下的分數(shù)應(yīng)該更高,似乎是與9800X3D的適配和優(yōu)化出現(xiàn)了問題。
不過在DLSS 3的測試中,ROG ASTRAL夜神RTX 5090 D顯卡依然跑出了最高4K 300幀的絕佳成績,并且?guī)瑪?shù)分布呈現(xiàn)較為正常的趨勢。
在畫面對比中,我們固定4K分辨率、DLSS 3質(zhì)量擋位,來看看游戲中不同畫質(zhì)下的差距。其中質(zhì)量與極致的差別在于遠景處石頭的外觀細節(jié)缺失,但近景并無影響。平衡與質(zhì)量畫質(zhì)的差別則在于遠景處體積霧的消失,同時遠處房頂上的植被消失。
性能畫質(zhì)的差別則比較明顯,除了上述變化,整體的渲染效果也發(fā)生了變化,并且天空中的體積云也更為模糊。不過4檔畫質(zhì)的差別均不影響游戲視距,及角色本身的模型和紋理。
《地平線5》也是顯卡測試的常駐游戲,其憑借出色的優(yōu)化,在原生效果下即可跑出優(yōu)秀的成績。ROG ASTRAL夜神RTX 5090 D顯卡在DLSS 3 4K分辨率下再創(chuàng)新高,達到263幀的成績。
在《刺客信條:幻景》中,我們關(guān)閉游戲的自適應(yīng)幀率,分別測試DLSS不同擋位與原生畫質(zhì)下的差異。
ROG ASTRAL夜神RTX 5090 D顯卡在4K分辨率原生畫質(zhì)下即可達到141的電競級幀率,而在DLSS性能擋位中,突破200幀。對于幾年前大家一直戲稱的“眾生平等”游戲,現(xiàn)在4K分辨率下已經(jīng)突破200幀,實在令人唏噓。
在《無主之地3》中,ROG ASTRAL夜神RTX 5090 D顯卡相比RTX 4090的提升分別為:1080p提升28%;2K提升33%;4K提升44%,綜合提升35%。在純光柵化游戲幀數(shù)對比中,《無主之地3》比較能概括RTX 5090 D與RTX 4090的光柵化性能的綜合差距。
《光明記憶:無限》的光追測試軟件是獨立于游戲的測試工具,比游戲中用到的光線追蹤技術(shù)更多,測試條件為“RTX最高/DLSS質(zhì)量”。
性能方面,ROG ASTRAL夜神RTX 5090 D顯卡相比RTX 4090的提升分別為:1080p提升39%;2K提升38%;4K提升42%,綜合提升40%。
7專業(yè)軟件測試
作為90級別的顯卡,本代RTX 5090 D擁有32GB的超大顯存,內(nèi)容創(chuàng)作者領(lǐng)域的應(yīng)用是必不可少的。我們分別測試了不同類別的創(chuàng)作軟件。
V-Ray6
V-Ray6對于GPU的測試分為RTX與CUDA,其中RTX測試相比RTX 4090(5852)首測時提升154%左右。足以證明新架構(gòu)在光線追蹤中的顯著效果。
UL Procyon
本次測試UL提供了FLUX.1 Dev繪畫模型的FP4測試。BlackWell架構(gòu)新的Tensor Core特性不僅讓生成所需的顯存顯著減少,在生成時間也有大幅降低,平均4張圖片即可節(jié)省10秒時間。
FP4渲染生成圖片
FP8渲染生成圖片
在結(jié)果對比中,F(xiàn)P8和FP4所生成的圖片效果是相同的,在細節(jié)和圖片精度上均有著良好表現(xiàn)。
Keyshot 2024
Keyshot是一款專注于模擬光線追蹤的渲染軟件,并可分別調(diào)用CPU或GPU進行渲染,下面我們看下最終的渲染時間和結(jié)果。
使用ROG ASTRAL夜神RTX 5090 D顯卡渲染一張4K分辨率,采樣率為1000的圖片,最終用時66秒左右。
而使用CPU渲染,則需要1小時35分鐘左右。并且從圖片細節(jié)來看,兩種渲染方式幾乎沒有不同。所以GPU對于內(nèi)容創(chuàng)作者來說,效率的提升是不言而喻的。
8NVIDIA Broadcast
NVIDIA Broadcast是一款用于直播或會議的AI軟件,目前隨著RTX 50系的發(fā)布,也進行了版本更新。
新版NVIDIA Broadcast界面更小巧,縱向布局也更方便視頻直播中調(diào)節(jié)選項。
NVIDIA Broadcast一些經(jīng)典效果更方便開啟,其中目光接觸功能非常適合遠程會議,即便眼睛盯著屏幕,也能讓參與人員時刻注意到你的眼睛,并且還有一定“大眼”效果。
虛擬補光仍是測試版功能,它可以在光線較暗的情況下進行面部的AI補光,看你看起來仍然處于光線較好的環(huán)境中。
在新的NVIDIA Broadcast中,還增加了GPU利用率的顯示,當軟件中功能全部打開時,對于GPU的占用率還是非常高的,比較適合會議等不需要過多GPU參與的場景。而如果是游戲直播,則可適當關(guān)閉AI效果,以降低GPU利用率。
9NVIDIA APP
新版的NVIDIA APP代替了原來的GFE軟件,并且功能更強大,使用起來也更方便。最主要的是,它不用登陸了,即下即用。
在APP首頁除了顯示最新的驅(qū)動信息,還新增了NVIDIA周邊軟件的下載,比如AI繪畫Canvas;圖像視頻對比工具ICAT;性能測試工具FrameView等等,不用再去NVIDIA官網(wǎng)尋找。
從APP中強制開啟DLSS 4的功能上面已有介紹,不過目前并不是所有游戲和軟件均支持此功能。
系統(tǒng)界面中則更多的是調(diào)試類功能,如顯示器、視頻、超頻等。
其中性能界面提供了較為詳細的監(jiān)控和超頻選項,需要注意的是新手如果想嘗試超頻,盡量不要改變電壓,這個選項輕則掉驅(qū)動,重則燒毀顯卡。
NVIDIA信息浮窗是游戲中很好的輔助工具,要開啟此功能,需要在APP主界面的設(shè)置一欄中,開啟按鈕,之后按【ALT+Z】即可呼出邊欄。
按【ALT+R】可呼出統(tǒng)計數(shù)據(jù)的浮窗,功能設(shè)置和自由度的調(diào)節(jié)也非常豐富,最主要的是相當簡便。
10功耗及溫度測試
功耗測試中,我們選擇FurMark2軟件進行拷機測試,并采用AIDA64檢測信息。
FurMark軟件截至首測時,尚無法檢測到GPU信息,部分溫度識別有誤。我們主要看藍色的AIDA64信息。ROG ASTRAL夜神RTX 5090 D顯卡在40分鐘左右的烤機測試中GPU溫度為64℃;顯存溫度為70℃。另外可以看到在TDP 100%的滿載情況下,整卡功耗為600W。
除了滿載烤機,我們也實測了游戲中顯卡的真實數(shù)據(jù)表現(xiàn)。測試選擇《賽博朋克2077》benchmark,4K分辨率下光追加速畫質(zhì),并開啟DLSS 4 4X多幀生成,將顯卡性能拉滿。
可以看到ROG ASTRAL夜神RTX 5090 D顯卡的平均功耗為518W,相比FurMark烤機低了80W左右。
作為一款旗艦級顯卡,華碩ROG ASTRAL夜神RTX 5090D顯卡在性能、散熱、創(chuàng)新技術(shù)以及兼容性和擴展性等方面都表現(xiàn)出色,而且基于華碩自動化制程技術(shù)制造,不論品質(zhì)一致性還是穩(wěn)定性,都更能讓人安心。它不僅能夠為用戶提供流暢、細膩的游戲和創(chuàng)作體驗,還支持最新的圖形技術(shù)和API,為用戶帶來更多的可能性。如果你是一位追求極致游戲體驗和創(chuàng)作性能的用戶,那么這款顯卡絕對是你的不二之選。
轉(zhuǎn)載請注明來自夕逆IT,本文標題:《華碩x450v(華碩ROG ASTRAL夜神RTX 5090 D顯卡評測巔峰實力豪華體驗)》

還沒有評論,來說兩句吧...