[個人意見]對NV40的評價與解讀 - PCDVD數位科技討論區

Artx1

Master Member

加入日期: Jun 2002

您的住址: 耗電量頗高的地方.

文章: 1,959

[個人意見]對NV40的評價與解讀

http://www.3dcenter.org/artikel/nv4...ik/index2_e.php
3DCenter的文章，偏技術面的東西不少。

首先，NV40是個記憶體頻寬受限的產品。
解析度如果不開高，不增加核心的工作負擔的話，
會嚴重地塞在記憶體部分。
設成1024x768的時候，NV40跑起來像是個8pipe的卡，其實就是因為256bit記憶體也只能負擔這種程度的吞吐量。

那開高解析度，開高倍率FSAA就不會增加記憶體負擔嗎？
這的確也是沒錯，但是不要忘了色彩壓縮功能會在高用量時發揮效果，所以開高解析度時反而很可能會發揮效能。
實質上，NV40在高解析度下的表現，效能曲線下降的比例比起過去的產品又更小了。

綜合上述兩點，其實應該卯起來對這種怪獸卡開高解析度的。

====
另外，3DCenter覺得其實單論管線而言，NV40單一管線的規模小過NV35；但是效率方面則提高非常非常多，使得單一管線的運算能力反而大過前作很多，連帶地讓配置數量便大，整個晶片便朝向數大就是美的方向去了。

想想，電晶體數量從135M 增加到 222M，實質上NV40並沒有大上兩倍，但是VS多了2倍PS多了4倍還外加大量的新功能....
靠的便是緊致度更高的設計。

====
UltraShadow2，透過16條管線的規模外加每條管線4倍的Z-Test能力，ROP重新配置等等，對Doom3這種會先做一次Z-Sorting的引擎而言，會得到更進一步的效率提升....
每條管線都可以進行一個quad的Z-test，16條管線就是16個quad，相當於64個pixel....

要是說NV3x是Doom3 Card的話，NV40就是"More Doom3 Card"了。

====
最後，NV40的影像處理器是完完全全自Shader獨立出來的，
不僅是壓縮與解壓縮都不是靠Pixel Shader處理的。
這點是相當值得注意的一部份。

前幾年NVIDIA買下MediaQ公司，看來東西都跑到這裡來了。

此文章於 2004-04-15 10:14 AM 被 Artx1 編輯.

2004-04-15, 10:08 AM #1

Artx1

Master Member

加入日期: Jun 2002

您的住址: 耗電量頗高的地方.

文章: 1,959

來自 Hotball 大的一點意見：

之前看 ILM 的 OpenEXR 網站才注意到，
它說 NV3X 的 FP16 支援 denormalized、NaN、和 infinity
後來 NVIDIA 的 Editor's Day(NV35) 文件
也是有這樣的暗示，沒有提到 NaN 就是了；
但是沒有理由 NV40 會比較爛。

照 OpenEXR 的介紹，FP16 的格式是 s10e5。
這個是本來就知道的；可是它的介紹有更詳細的內容。
包括 bias是 15
exp = 0 用來表示 0 和 denormalized numbers
exp = 31 表示無限大和 NaN
所以實際指數的範圍是 -14 ~ +15
這樣就相當符合 754 的格式了。

剩下就是 754 那些 traps
還有 rounding mode 什麼的
rounding mode 其實也有辦法測…
還有是不是 exactly rounded...

well.....FP16有，不代表FP32會有，
不過可以寫個程式來測。
如果顯示晶片有支援 floating point render target 的話會簡單很多
因為可以直接叫它寫出去，就可以知道它長什麼樣子。

以上，NV40應該會比NV35更適合做非常規(非繪圖)的運算，比如說科學運算等等的工作。

2004-04-15, 10:22 AM #2

vict1

Major Member

加入日期: Jul 2001

您的住址: 冬天最冷的地方

文章: 251

引用:

Originally posted by Artx1
來自 Hotball 大的一點意見：

之前看 ILM 的 OpenEXR 網站才注意到，
它說 NV3X 的 FP16 支援 denormalized、NaN、和 infinity
後來 NVIDIA 的 Editor's Day(NV35) 文件
也是有這樣的暗示，沒有提到 NaN 就是了；
但是沒有理由 NV40 會比較爛。

照 OpenEXR 的介紹，FP16 的格式是 s10e5。
這個是本來就知道的；可是它的介紹有更詳細的內容。
包括 bias是 15
exp = 0 用來表示 0 和 denormalized numbers
exp = 31 表示無限大和 NaN
所以實際指數的範圍是 -14 ~ +15
這樣就相當符合 754 的格式了。

剩下就是 754 那些 traps
還有 rounding mode 什麼的
rounding mode 其實也有辦法測…
還有是不是 exactly rounded...

well.....FP16有，不代表FP32會有，
不過可以寫個程式來測。
如果顯示晶片有支援 floating point render target 的話會簡單很多
因為可以直接叫它寫出去，就可以知道它長什麼樣子。

以上，NV40應該會比NV35更適合做非常規(非繪圖)的運算，比如說科學運算等等的工作。

我不知道我有沒有搞錯
bias 15 不就是以-15當0嗎
所以指數範圍是-15---14

還是我搞錯啦

__________________
新簽名檔思考中

2004-04-15, 10:35 AM #4

Artx1

Master Member

加入日期: Jun 2002

您的住址: 耗電量頗高的地方.

文章: 1,959

引用:

Originally posted by 宗毛
nv40的色彩壓縮比是多少?

UltraShadow2那邊，意思是nv40是64x0囉?

色彩壓縮部份好像還是維持IntellisampleHCT，所以是~6x。

UltraShadow2的部份，引一下3Dcenter的文字：
NV40 has 16 ROPs. Sounds like one ROP per pipe. But nVidia implemented a "fragment crossbar".
This now ensures the use of ROPs where they are needed the most.
With the "advanced" ROPs since NV30, up to 32 "zixels" can be rendered per single clock cycle.
Again, forget about "pipeline counts" as this would mean NV40 could be considered a 32 pipeline design (this would be bogus, of course.)
With 4x antialiasing we have up to 64 subpixel per clock forcing the ROPs to loop.

嗯，所以32x0應該是stencil-test的部份，Z-Test則好像比較大？
不過ROP裡面應該還是只有兩個Z-Comp啊。
雖說3DCenter認為那個Fragment Crossbar會在這邊發揮效用，
不過我本來是以為那個是用來在OpenGL底下做一些影像處理效果的東西說。
原來還真的可以這樣用嗎....

bais的部份，好像有筆誤....? ^^a

此文章於 2004-04-15 10:52 AM 被 Artx1 編輯.

2004-04-15, 10:46 AM #5

Artx1

Master Member

加入日期: Jun 2002

您的住址: 耗電量頗高的地方.

文章: 1,959

嗯，一直被忘記的東西，NV40支援FP16-based Frame Buffer & Multiple Render Target，RAMDAC也被修改來支援這個東西。

NV40整個架構實做了OpenEXR的硬體支援，所以雖然是只有FP16，不過依照前面提到的，其實可用範圍相當於IEEE754的規定，所以精確度並不低。
不過帳面上只有64bit....
3DCenter還是想用"Middle Dynamic Range(MDR)"這個詞虧NV一下。嘿嘿。

不過說真的，畢竟NV40還是支援FP32。
而且以實用性來說，支援OpenEXR並且可以做filtering和Blending的FP16，可用性要大得多。
話說即使使用FP Texture，也是可以只用32bit整數輸出。
何況FP16 FrameBuffer應該會沒有辦法支援MSAA。
用FP FrameBuffer的時候本身就會很慢了，再准人用MSAA大概會倒地也說不定；不過NV40還沒show這玩意兒過，也許到時候效率還是會很嚇人也說不定。

此文章於 2004-04-15 11:33 AM 被 Artx1 編輯.

2004-04-15, 11:17 AM #6

Artx1

Master Member

加入日期: Jun 2002

您的住址: 耗電量頗高的地方.

文章: 1,959

嗯，AF品質部分....

雖然追加了16x AF，不過蠻可惜的是似乎比本來NV3x糟一點。
演算法上，NV40不再提供過去NV2x/3x使用的無失效角度的演算法，所以稍微有一點失效角度。
作法類似R300的取捨，不過角度不太一樣。

實際上算是一種退步....吧。蠻可惜的。
To enthusiasts looking for the best texture quality available,
GeForce used to be the first choice. These times are over.
(哇，好嚴厲的指控)

----
這邊至少要提一下，基本上是和R300/350同級或更好的。
不過本來是希望NV40應該要提供舊的高品質演算法和現在這個"稍微偷工"過的演算法；
不過一個想法是：電晶體數量可能已經很吃緊了，所以就只好取捨了。
不過再怎麼說，也有可能單單只是Driver沒打開這些選項....(NV40預設是用optimized)

實話是，這種品質不太適合放在發燒卡上....
NVIDIA GeForce4 算是最後提供完整Trilinear演算法的晶片吧。NV3x和NV40現在看起來多出來的都是小偷工。

此文章於 2004-04-15 12:23 PM 被 Artx1 編輯.

2004-04-15, 11:38 AM #7

dolaimo

Junior Member

加入日期: Dec 2001

您的住址: kaohsiung

文章: 887

反正就是等吧.有實品可玩再說.不過我比較想知道的是.這次QUADRO命名是QUADRO6 還是QUADROFX.哈哈.GEFORCE 多了FX之後嘿嘿 .FX好像下場都不是很好.

我想可以知道的是如果大量材質通過時.GPU變猛了.AGP 8X 已經不夠用了.PCI EXPRESS 快來吧.

__________________

咖啡林咖啡

coffee review 94分 get!

此文章於 2004-04-15 12:15 PM 被 dolaimo 編輯.

2004-04-15, 12:04 PM #8

luke929

Master Member

加入日期: Mar 2002

您的住址: 台北市

文章: 2,195

引用:

Originally posted by dolaimo
反正就是等吧.有實品可玩再說.不過我比較想知道的是.這次QUADRO命名是QUADRO6 還是QUADROFX.哈哈有FX好像下場都不是很好.
我想可以知道的是如果大量材質通過時.GPU變猛了.AGP 8X 已經不夠用了.PCI EXPRESS 快來吧.

Quadro FX就算有FX但在專業繪圖卡領域還是一樣猛到不行阿

2004-04-15, 12:12 PM #9

dolaimo

Junior Member

加入日期: Dec 2001

您的住址: kaohsiung

文章: 887

引用:

Originally posted by luke929
Quadro FX就算有FX但在專業繪圖卡領域還是一樣猛到不行阿

是啊~不過要全勝咩~~不論是GAME跟繪圖都全勝才是王者啊~

__________________

咖啡林咖啡

coffee review 94分 get!

2004-04-15, 12:13 PM #10