![]() |
||
Elite Member
![]() ![]() ![]() ![]() ![]() 加入日期: May 2002
文章: 7,865
|
![]() 引用:
不過以R300來說,它的八條像素管線每一週期只能著色一次來說,TOM那裡也提過如果遇上多層貼圖的遊戲,不見的能夠取得多少優勢,測試上也看到如果以多層貼圖的測試上看,Ti4600只輸R9700Pro一些,但是在單次貼圖的項目上R9700Pro確是大勝 Ti4600...R350在管線上是否更動,我是不清楚,不過以R300來說是這樣沒錯,所以現在NV搞的這個什麼陣列的真的有點給它搞不懂運作原理 |
||||||||
![]() |
![]() |
Golden Member
![]() ![]() ![]() ![]() 加入日期: Nov 2000 您的住址: 戰星卡拉狄加
文章: 3,822
|
引用:
nv3x在dx9慘敗是因為這些遊戲僅用一層貼圖嗎? 應該不是吧? 遊戲發展到現在,影響顯示晶片快慢的是PS/VS效能,而不僅是fillrate高低而已!! |
|||
![]() |
![]() |
Junior Member
![]() ![]() ![]() 加入日期: Dec 2001
文章: 728
|
引用:
對啊~ 只希望N社別拿自己的信譽開玩笑 別讓別人說自己訂定的最佳化方針是定好看的 免得流失的只有客戶啊! |
|
![]() |
![]() |
Master Member
加入日期: Jun 2002 您的住址: 耗電量頗高的地方.
文章: 1,959
|
基本上, NV30在架構上的確資源比R3x0低落許多.
先前B3D的站長Dave有一篇post, 闡述了NV3x的架構與R3x0的架構, 也解釋了NV3x反常的行為原因. ![]() (由Hotball兄所重新繪製) 這個架構圖在之後由LostCircuit方面做出更詳盡的比較. LostCircuits刊出的架構資源比較圖. ![]() 所以, 基本上NV3x與R3x0在架構上有相當的資源落差, 單條管線的話並不是很大的差距(3ops/cycle vs 1~5ops/cycle), 通常是時脈可以解決的問題; 但是今天是四條管線(NV35)vs八條管線(R3x0), 於是落差就出現了. 於是出現了NV35之流的高階卡居然有可能輸給對手廠商中階卡(RV350)的效能表現的狀況. (日前HL2的Vavle官方自主測試已經出現了這樣的狀況) 於是, 被指出是架構本身推力不足, 而非相容性問題, 最近nVIDIA只好開始消毒了. 成為了一個很麻煩的狀況.... 主要的原因其實不少. 一來, CineFX(VS2.x/PS2.x)的規模過大, 而且有不少架構上的舊累贅, (比如說在VS之外還內包了一個完整的T&L單元, 不過也因此OpenGL專業軟體超快) 二來, TSMC的製程也不足以讓nVIDIA持有製程技術優勢 (於是現在跑去找IBM) 最後, 因為NV30實在是Delay太久了. 以過去nVIDIA的步調而言, NV3x應該在比R300(9700)還要更早的時候, 也就是去年第一第二季(2002Q1~Q2)的時候就該生出來了, 結果整整Delay了兩季, 到去年底才生出來. 於是變成NVIDIA的產品線整整慢了對手一個產品週期的狀況. 如果我們將NV30/35現在的效能倒推回半年前的各家產品線對比看看, 其實會是個很好的產品, 狀況或許就不會像現在這麼慘了. 不過, 在這種狀況下, 或許正可以看出nVIDIA的Driver水準之高, 硬體資源差異這麼大的情況下, 居然還能不會輸得太難看.... 只是, ATi 的Driver不停地在改善, 雖然專業市場短期內是很難扳得回來, 但是很快地, DX9遊戲會在今年底到明年中之間一個接一個上市, 這樣的遊戲市場可能會讓nVIDIA今明兩年過得很辛苦了. 另一個問題是, NV40如果是預期的2xNV35+GigaPixel(TBR)的話, 只怕與R420比起來還是勉勉強強, 和R360 -> R420的修改幅度比起來, NV35 -> NV40的修改幅度想必大得很多, 檯面下的資源損耗是很傷人的, 考慮到已經上市產品的週期變換, NVIDIA遊戲卡的市場版圖可能會有極大的損害, 就算NV4x整個產品線完整推出可能都不會有顯著的起色, 甚至可能會拖到次次世代產品(DX10, R500 vs NV50?)才會比較有希望. |
![]() |
![]() |
Master Member
加入日期: Jun 2002 您的住址: 耗電量頗高的地方.
文章: 1,959
|
至於NV35這回對HL2的效能提升, 到底是不是作弊得來的呢?
這個可能要從架構上去稍微解釋一下. 基本上, NV30與NV35的主要差異在於, NV35把NV30的兩個FX12(Register Combiner)擴充了浮點能力, 讓兩個MiniFP32可以做和Full FP32一樣的工作, 發揮類似4x2甚至4x3的作用, 而仍然保留原來FX12的功能.(不過Full-FP32倒是不能跑FX12) 所以, 過去NV30如果使用FX12時, 會發揮相當於4x2的效果; 但是使用FP32會變回類似4x1的狀況. (實質上的fillrate仍然是4管線) NV35則使得FP32的運作仍然能有4x2的能力, 不過使用FP16仍然比FP32快. 所以, NV35比起NV30, 實體資源是有增加的, 所以針對NV35的Driver改善, 在NV30上可能不會發揮太大的作用, 原因是這部分的改善是為了提高對NV35增加出來的硬體資源, 提高其使用率. ---- 所以我們看這回Det.50對HL2的效能改善. 其實從上面的管線架構圖可以看出, R3x0在最極端的狀況下能發揮8x5的效果(!!), 但是每個單元其實都只有部分的功能, 所以指令只有在特定的排列下 才能"剛好"達到全部使用, 絕大部分的狀況仍然都只會發揮類似8x1的效果, 其實算是一個效率不好的架構; 相比之下, NV3x的效率就高上許多. NV30使用FP16的時候會是4x2, FP32的時候則接近4x1. (這邊指的是color指令不是過去常提的texture指令), NV35則是在任何狀況下都會是4x2, 甚至會有4x3的case發生(stencil-op). 於是, 針對NV35的Driver改善, 是使得NV35在Best Case時, Shader執行能力上達到與R3x0的worst case的資源使用狀況相同. 基本上R3x0的這個架構, 資源使用率其實相當低, NV35的話則相對地比較高, 所以, 如果Driver能夠做到經常性的維持NV35在高使用率的狀況的話, 那麼一般狀況下NV35是可以在效能上與R3x0一拼的, 不需要去刻意的降低Texture品質, 甚至也可以開高解析度, 開AF也沒關係, 因為這部分比較和Shader Performance無關; 不過FSAA就難說了. 由於總執行能力確實比較低, 如果去提高負載的話, 受效能衝擊影響的狀況一定會比較嚴重, 這就沒辦法了. Det.50著重的改善應該就在於改善compiler以提高對Mini32單元的使用率, 儘可能把效能擠出來, R3x0則是本來平行度就很高, 而且這個架構其實也沒多少手段可以做最佳化, 因為目前的IMR不可能去做類似OOP的事情.... 總之, 這回NV35的最佳化, 並不一定是作弊, 因為從架構上推, 有這種提升其實是合理的. 但是NV30的話, 可能就不會受惠了. 於是HL2直接將NV30定為DX8, 使用其FX12, 以使NV30的表現不會糟到影響遊戲進行的程度. 上頭是軟體使用FP的狀況, 比如說HL2.... 如果是使用FX12(比如說Doom3的NV30 backend)的話, 則就不會有上述的問題, 一定會是全十全火力輸出, 這樣的話NV3x和R3x0的立足點是相同的(4x2 vs 8x1), NV35就可能會因為Ultra Shadow之類的額外加值而勝出, 主因是因為Doom3沒有使用HDR. 而R3x0不論是在任何狀況下, 速度都一樣, 因為它的內部精確度就固定是FP24了. 以上是效能方面的討論, 已知NV38有另外的改善, 可能是針對暫存器方面的改善, 這樣的話就可能會進一步的提高使用FP32時的資源總量. ---- 講了這麼多, 想講的其實很簡單. NV3x會輸的主因並不在於對DX9的相容性好壞, 而在於硬體資源本身總量就真的比人少了(雙方的best case達到12vs40的誇張程度). 所以反過來說, 其實NV3x跑DX9也不應該會遇到多少相容性問題, 而是慢的時候真的就會比較慢. 套句David Kirk自己的台詞, "這是物理, 不是魔術".... 反而是nVIDIA如果放入了一些額外的不當最佳化, 就可能會造成相容性問題, 其實等於是自己把自己的狀況搞糟了.不過隨著NV40即將推出, 這個狀況理應會減少. 因為晚推出, 和人家比起來效能就被比了下去. 因為效能不好, 所以比較好的功能變得沒人用.... CineFX失敗的原因很多, 但是Delay絕對稱得上是主要因素. 其實也因為這樣, 已經有一些要nVIDIA直接放棄NV3x, 提早推出NV4x的聲音了, 不過看著NV38推出, NV40繼續delay, 看來nVIDIA當初也可能沒考慮到 NV3x的狀況會這麼糟糕.... 所以NV40還生不出來, 只好繼續死撐了? |
![]() |
![]() |
Master Member
![]() ![]() ![]() ![]() 加入日期: May 2000
文章: 2,444
|
感謝Artx1兄的解說…
其實nv把nv35的效能榨得愈乾,對消費者來說才是一件好事呢… 原來只以為效能和品質只能擇一,裡面竟還有這麼多道理,又上了一課!謝啦! 如果真是這樣子,那nv這種就算是良性競爭了… ![]() |
![]() |
![]() |
Junior Member
![]() ![]() ![]() 加入日期: Jul 2001 您的住址: 地球
文章: 834
|
引用:
這邊我有個問題 一般的說法都是指向TSMC的.13製程量率不佳 以致於NV轉單到IBM去了 倒是前陣子有消息傳出 IBM本身的高階製程量率極差 NV可能又會把單子轉回TSMC @@~ 不知道是真的還假的 還是純粹是TSMC放出來的風聲
__________________
Lordcolus's Blog >>http://lordcolus.blogspot.com/ Glory, glory, Man United, Glory, glory, Man United, Glory, glory, Man United, And the reds go marching on, on, on. |
|
![]() |
![]() |
Master Member
加入日期: Jun 2002 您的住址: 耗電量頗高的地方.
文章: 1,959
|
引用:
這我是不太清楚, 不過基本上現在的晶圓代工都是Cell Based, 元件庫由代工廠提供, 所以即使是同樣的晶片, 在兩個不同的代工商製造, layout和性能仍然都有很大的差異, 因為元件根本都不一樣.... 極端一點的話, 可以說根本就是從頭來了. 不太清楚IBM的高階製程目前狀況如何, 但是先前PCWatch也提到過, ATi 雖然同時在TSMC和UMC雙方投產, 但是在UMC的產量穩定的同時, TSMC方面卻常常出現Delay的狀況, 所以RV350的數量和價格都不是很好. 另外有一個自覺頗重要的地方, 就是台灣的代工商都以低價格與成本管理為主打, 而IBM先前代工的價格開得很高, 成本管理也不是很好.... 不過, 話說先前NGC的問題也是出在代工(NEC).... 市場真是複雜啊. |
|
![]() |
![]() |
Junior Member
![]() ![]() ![]() 加入日期: Dec 2001
文章: 728
|
哇~~~~解說的有夠詳盡!
![]() ![]() 感謝Artx1兄的解說 原來是執行效率的問題 感謝感謝! 真猶如當頭棒喝 ![]() ![]() |
![]() |
![]() |