PCDVD數位科技討論區 - 瀏覽單個文章 - GTX480年內難產 NVIDIA費米面臨推倒重來

有消息說，NVIDIA即將在3月27日再一次發佈他們由來已久的費米GF100(GTX480)顯卡。這個讓我們等待了有半年之久的顯卡究竟是什麼原因不斷跳票呢?現在就讓我們一起來瞭解一下GF100的近況——雖然最新流片的GF100從台積電回來已經幾個星期了，但是前景仍不容樂觀。

　　首先，我們在今年1月底得到消息，NVIDIA開始生產A3版GF100。儘管NVIDIA開始從台積電批量接收A3晶片，但是他們沒有為此高興，原因很簡單，A3版GF100晶片儘管工作頻率只有600MHz，但是發熱量已經達到極限的一半，並且其中為頂級產品準備的A3版GF100 SP數量只有448個。最重要的是，台積電的GF100晶片產率百分比還維持在個位數。

　　更為微妙的是，儘管GF100晶片已經降頻並削減了流處理器數量，但是晶片良率還是無法提升。更糟糕的是，如此之低的良率有可能讓GF100最終推倒重來，完全重新設計。

　　NVIDIA目前的首要任務就是提升GF100晶片的良率。如果你還記得，我們之前曾經說過，第一次流片的GF100發熱量巨大，良率極低，一片晶圓上的416個晶片當中只能挑選出7顆正常工作的晶片，也就是說GF100的良率低於2%。

　　GF100出現如此巨大的問題，可以追溯到之前他們在解決問題上的所作所為。GF100目前3個步進都被稱為金屬層流片，比完整的基礎層改進流片成本更低，速度更快，大約兩個月到看到結果。一個完整的基礎層重新流片時間超過一個季度，有可能超過6個月完成，費用超過100萬美元。金屬層流片通常以更大的數字代表流片版本，比如A1到A2，而基礎層重新流片通常以字母變化代表不同版本，比如A3到B1，NVIDIA通常以A1代表晶片首次流片，因此目前 A3版本是代表GF100第3次金屬層流片。

　　金屬層流片往往解決邏輯問題，比如1 + 1 = 3這類的錯誤，而不是解決晶片功耗或產率問題。大多產率問題往往涉及晶片採用的製造工藝，以及晶片工作頻率的既定指標和設計規則等等。因此，金屬層流片可以看作是晶片流片的簡化版本，不牽扯到功耗或良率問題。

　　NVIDIA在去年9月初得到第一批流片的GF100晶片，第一批流片的GF100時鐘速度為500MHz，晶片生產良率百分比徘徊在驚人的個位數，並且發熱量極大。

　　第二次流片的A2版GF100，工作頻率有所提升，但是晶片良率仍然低得嚇人，並且A2版GF100流片交付日期逾期一個月左右，所以你可以確信GF100晶片生產仍舊相當困難。這讓包括NVIDIA在內的任何晶片公司都無法容忍。

　　SemiAccurate網站在去年耶誕節已經聽說NVIDIA收到A3版流片樣品，A3版沒有改善晶片時鐘速度。這並不奇怪，因為NVIDIA使用了錯誤的工具，即修改金屬層來修復時鐘速度和功耗問題。A3版晶片工作熱量也非常大。因此，在去年3月瞭解到GF100設計架構之後，我們一直堅持 GF100“無法生產”這種觀點，如果NVIDIA要讓GF100可以生產，那麼必須推倒現在的GF100架構，重新設計GF100。

　　為什麼GF100境遇如此悲慘?答案很簡單，NVIDIA沒有為GF100生產做好準備。NVIDIA公司根本沒有做生產前的充足試驗和有條不紊的深謀遠慮。和ATI進行對比，我們可以看ATI採用HD4770(RV740晶片)來試驗台積電40納米工藝，並且從中總結經驗教訓，這種學習和汲取最終回饋到Radeon HD 5000系列GPU當中，因此5000系列GPU現在的良率完全在AMD可以接受的範圍之內。

　　NVIDIA公司在2009年第一季度計畫了四款40納米GPU產品-G212，G214，G216和G218，它們分別是55納米 G200b，G92b，G94和G96的40納米馬甲版。 G212向40納米邁進的情況非常糟糕，已經胎死腹中。G214的情況也好不到哪裡去，為了配合40納米大規模的生產，流處理器數量不得不從128個削減到96個，並且改名為G215，並終於在2009年11月批量投產，最終上市名稱改為GT240，G216最終名稱改為GT220， G218上市最終名稱改為G210。這些產品從規劃到上市過程當中，都有無數次改名運動，其中部分產品現在居然改名為300系列，NVIDIA從沒有給出過這樣命名的原因。

　　NVIDIA G215，G216和G218圖形晶片各自的晶片面積大約是139平方毫米，100平方毫米和57平方毫米。這些晶片面積都非常小，而高端55納米的G200b晶片面積超過480 平方毫米，更早的65納米G200晶片面積超過575平方毫米。

　　ATI早在2009年4月就開始大批量出貨面積為137平方毫米的GPU晶片。NVIDIA公司在40nm工藝上遇到嚴重問題，因此去年8月才開始向 OEM廠商出貨40納米G216和G218晶片，之後NVIDIA花費幾個月時間，才開始向零售管道出貨40納米G215圖形晶片。

　　類似圖形晶片之間有粗略的產率對比計算方法，即晶片面積之比的平方，比如200平方毫米晶片的產率是100平方毫米晶片產率的1/4，50平方毫米晶片產率是100平方毫米晶片產率的4倍。圖形晶片設計公司會為每一款晶片設計冗餘結構，以修復製造過程當中的某些類型的錯誤，但這種冗餘結構設計也有限制。

　　每個冗余設計都增加了晶片的設計面積，因此提升晶片成本。半導體製造是一個複雜的權衡過程，需要考慮到冗余面積成本與產率問題。如果你計畫得當，你可以用非常小的冗餘面積得到非常高的晶片產率。

　　去年春天和夏天，ATI已經向外界通報，他們在Radeon HD 5000系列晶片製造上吸取了RV740晶片製造的經驗教訓，這是一次非常富有成效的學習經驗。其中深藏不露的秘密就是吸取了40納米工藝在RV740晶片互連金屬層之間的問題。另外，他們也瞭解到台積電40納米工藝，在晶片電晶體構建上差異度非常大，特別是電晶體通道長度上。

　　既然Anandtech網站在Radeon HD 5000系列歷史文章當中談到這兩個秘密，現在繼續保密也毫無意義。這兩個秘密也改變了電晶體的設計和佈局，以減輕台積電40納米工藝的差異度。並且它們消耗的冗餘面積也比較大，對晶片功耗也有負面影響，但是這都是向40納米進化必須付出的代價。

　　另一方面，NVIDIA公司在40納米工藝上沒有做足功課。SemiAccurate網站數次獲悉，NVIDIA解決這些的問題的方法是向台積電相關人士“尖叫”宣洩情緒，而不是積極改變晶片設計。

　　當NVIDIA公司發現問題並希望在GF100上進行修補的時候，為時已晚。除非台積電製造工藝出現奇跡，否則基本上來看，GF100設計是註定要失敗。

　　可能有人要問為什麼? GF100晶片面大約550平方毫米，比我們之前報導的略大。 NVIDIA公司在100平方毫米晶片上遇到問題，在139平方毫米晶片遇到三個月的嚴重延誤，的產量問題，並取消任何較大面積的晶片設計。NVIDIA 沒有像ATI一樣做足40納米功課，現在卻試圖以40納米生產550平方毫米的GF100晶片。

　　基本的數學計算表明，GF100面積4倍於G215，它們之間在晶片結構上有某些類似，所以你可以預料GF100產率約為G215的1/16， G215本身產率就不高，但即使G215的產率為99%，你也可以預期GF100產率百分比只有個位數。

　　修復這些問題需要NVIDIA公司做ATI之前做過的功課，即改變晶片設計以適應台積電40納米工藝。這個過程需要很長的工程設計時間和基礎層重新流片，並可能需要針對旗艦產品進行一次金屬層重新流片。如果一切順利，NVIDIA還需要6個月才能帶來GF100的完美版。

　　雖然這對NVIDIA來說是一件壞事，而且有可能讓讓GF100胎死腹中。但以目前情況來看，GF100實際上變得更糟，該晶片現在尺寸巨大，並且發熱量也很大。業內人士告訴SemiAccurate，在2010 CES上展示的GF100顯卡功耗280瓦。 NVIDIA公司在GF100第一次流片之前，就知道晶片將消耗巨大的電力這一情況，但它強調作為通用計算用途，GF100顯卡功耗並未超出225瓦大關。

　　為了解決這一問題，NVIDIA的工程師告訴 SemiAccurate，NVIDIA決定讓GF100晶片運行在一個非常低的電壓，即1.05v，相比之下，ATI Cypress(HD 5800系列)工作電壓在1.15V，TDP功耗在188W瓦，費米GF100的既定TDP功耗為225瓦，GF100每0.01v電壓提升會導致工作電流50%的提升，簡而言之，NVIDIA日後如果要選擇提升GF100工作電壓，將帶來更大的功耗和發熱量。

　　我們之前已經談到台積電40納米工藝有很大可變性和差異度。即有電流“洩漏”問題存在，這意味著和Cypress(HD 5800系列)以及工作頻率更低的樣品晶片相比，GF100零售版將消耗更多電力。這種問題的傳統緩解辦法是提升電壓，讓發生問題的電晶體正常工作，但這也使得電晶體洩漏更多電流，洩漏越多，晶片的發熱量也越大。

　　溫度更高的電晶體洩漏也比溫度較低的電晶體更多，所以晶片就進入1個由洩漏導致的高溫迴圈，讓洩漏問題越來越惡化。這種惡性循環的解決辦法之一，就是在顯卡上採用更加強悍的散熱器和散熱風扇，但這樣將提升顯卡成本，並且增加噪音。NVIDIA史上的GeForce 5800就是這種惡性循環的典型案例。

　　台積電40納米這種問題，意味著有大量分散的薄弱的電晶體分佈於晶片當中，並導致想當程度的漏電問題。如果NVIDIA提升電壓，那麼他們也同時大規模提升晶片的功耗。如果不提升電壓，那麼大量脆弱的電晶體基本上不工作，意味著晶片實際上是“破損”或“缺陷” 的，這兩個目標相互對立，而NVIDIA現在低電壓，高電流的政策只會讓問題加速惡化。

　　如果這還不夠糟糕，消息來源告訴 SemiAccurate說，台積電40nm工藝非常熱敏感。電晶體漏電問題隨溫度提升成正比增加，激烈程度遠遠超過以前的工藝。如果你超過某一臨界溫度，漏電的快速上升令人震驚。

　　NVIDIA可採用的另一種方法是遮罩那些過於脆弱的電晶體，保持電壓不變。不幸的是，GF100在架構上的設計，讓這個變通方法非常棘手。費米 GF100架構上由16個組的32個著色單元組成，構成全部512個著色器。從各方面來看，如果你要遮罩脆弱的電晶體，你被迫去遮罩整個1組32個著色單元，由於脆弱電晶體分散在整個圖形晶片當中，因此，遮罩2組電晶體，把意味著你失去64個著色器，這種級別的著色器丟失，是NVIDIA無法承受的。

　　文章來源：

　　Nvidia's Fermi GTX480 is broken and unfixable

http://www.semiaccurate.com/2010/02...-and-unfixable/