Master Member
您的住址: Australia
文章: 2,281
|
GTX480年內難產 NVIDIA費米面臨推倒重來
有消息說,NVIDIA即將在3月27日再一次發佈他們由來已久的費米GF100(GTX480)顯卡。這個讓我們等待了有半年之久的顯卡究竟是什麼原因不斷跳票呢?現在就讓我們一起來瞭解一下GF100的近況——雖然最新流片的GF100從台積電回來已經幾個星期了,但是前景仍不容樂觀。
首先,我們在今年1月底得到消息,NVIDIA開始生產A3版GF100。儘管NVIDIA開始從台積電批量接收A3晶片,但是他們沒有為此高興,原因很簡單,A3版GF100晶片儘管工作頻率只有600MHz,但是發熱量已經達到極限的一半,並且其中為頂級產品準備的A3版GF100 SP數量只有448個。最重要的是,台積電的GF100晶片產率百分比還維持在個位數。
更為微妙的是,儘管GF100晶片已經降頻並削減了流處理器數量,但是晶片良率還是無法提升。更糟糕的是,如此之低的良率有可能讓GF100最終推倒重來,完全重新設計。
NVIDIA目前的首要任務就是提升GF100晶片的良率。如果你還記得,我們之前曾經說過,第一次流片的GF100發熱量巨大,良率極低,一片晶圓上的416個晶片當中只能挑選出7顆正常工作的晶片,也就是說GF100的良率低於2%。
GF100出現如此巨大的問題,可以追溯到之前他們在解決問題上的所作所為。GF100目前3個步進都被稱為金屬層流片,比完整的基礎層改進流片成本更低,速度更快,大約兩個月到看到結果。一個完整的基礎層重新流片時間超過一個季度,有可能超過6個月完成,費用超過100萬美元。金屬層流片通常以更大的數字代表流片版本,比如A1到A2,而基礎層重新流片通常以字母變化代表不同版本,比如A3到B1,NVIDIA通常以A1代表晶片首次流片,因此目前 A3版本是代表GF100第3次金屬層流片。
金屬層流片往往解決邏輯問題,比如1 + 1 = 3這類的錯誤,而不是解決晶片功耗或產率問題。大多產率問題往往涉及晶片採用的製造工藝,以及晶片工作頻率的既定指標和設計規則等等。因此,金屬層流片可以看作是晶片流片的簡化版本,不牽扯到功耗或良率問題。
NVIDIA在去年9月初得到第一批流片的GF100晶片,第一批流片的GF100時鐘速度為500MHz,晶片生產良率百分比徘徊在驚人的個位數,並且發熱量極大。
第二次流片的A2版GF100,工作頻率有所提升,但是晶片良率仍然低得嚇人,並且A2版GF100流片交付日期逾期一個月左右,所以你可以確信GF100晶片生產仍舊相當困難。這讓包括NVIDIA在內的任何晶片公司都無法容忍。
SemiAccurate網站在去年耶誕節已經聽說NVIDIA收到A3版流片樣品,A3版沒有改善晶片時鐘速度。這並不奇怪,因為NVIDIA使用了錯誤的工具,即修改金屬層來修復時鐘速度和功耗問題。A3版晶片工作熱量也非常大。因此,在去年3月瞭解到GF100設計架構之後,我們一直堅持 GF100“無法生產”這種觀點,如果NVIDIA要讓GF100可以生產,那麼必須推倒現在的GF100架構,重新設計GF100。
為什麼GF100境遇如此悲慘?答案很簡單,NVIDIA沒有為GF100生產做好準備。NVIDIA公司根本沒有做生產前的充足試驗和有條不紊的深謀遠慮。和ATI進行對比,我們可以看ATI採用HD4770(RV740晶片)來試驗台積電40納米工藝,並且從中總結經驗教訓,這種學習和汲取最終回饋到Radeon HD 5000系列GPU當中,因此5000系列GPU現在的良率完全在AMD可以接受的範圍之內。
NVIDIA公司在2009年第一季度計畫了四款40納米GPU產品-G212,G214,G216和G218,它們分別是55納米 G200b,G92b,G94和G96的40納米馬甲版。 G212向40納米邁進的情況非常糟糕,已經胎死腹中。G214的情況也好不到哪裡去,為了配合40納米大規模的生產,流處理器數量不得不從128個削減到96個,並且改名為G215,並終於在2009年11月批量投產,最終上市名稱改為GT240,G216最終名稱改為GT220, G218上市最終名稱改為G210。這些產品從規劃到上市過程當中,都有無數次改名運動,其中部分產品現在居然改名為300系列,NVIDIA從沒有給出過這樣命名的原因。
NVIDIA G215,G216和G218圖形晶片各自的晶片面積大約是139平方毫米,100平方毫米和57平方毫米。 這些晶片面積都非常小,而高端55納米的G200b晶片面積超過480 平方毫米,更早的65納米G200晶片面積超過575平方毫米。
ATI早在2009年4月就開始大批量出貨面積為137平方毫米的GPU晶片。NVIDIA公司在40nm工藝上遇到嚴重問題,因此去年8月才開始向 OEM廠商出貨40納米G216和G218晶片,之後NVIDIA花費幾個月時間,才開始向零售管道出貨40納米G215圖形晶片。
類似圖形晶片之間有粗略的產率對比計算方法,即晶片面積之比的平方,比如200平方毫米晶片的產率是100平方毫米晶片產率的1/4,50平方毫米晶片產率是100平方毫米晶片產率的4倍。圖形晶片設計公司會為每一款晶片設計冗餘結構,以修復製造過程當中的某些類型的錯誤,但這種冗餘結構設計也有限制。
每個冗余設計都增加了晶片的設計面積,因此提升晶片成本。半導體製造是一個複雜的權衡過程,需要考慮到冗余面積成本與產率問題。如果你計畫得當,你可以用非常小的冗餘面積得到非常高的晶片產率。
去年春天和夏天,ATI已經向外界通報,他們在Radeon HD 5000系列晶片製造上吸取了RV740晶片製造的經驗教訓,這是一次非常富有成效的學習經驗。其中深藏不露的秘密就是吸取了40納米工藝在RV740晶片互連金屬層之間的問題。另外,他們也瞭解到台積電40納米工藝,在晶片電晶體構建上差異度非常大,特別是電晶體通道長度上。
既然Anandtech網站在Radeon HD 5000系列歷史文章當中談到這兩個秘密,現在繼續保密也毫無意義。這兩個秘密也改變了電晶體的設計和佈局,以減輕台積電40納米工藝的差異度。並且它們消耗的冗餘面積也比較大,對晶片功耗也有負面影響,但是這都是向40納米進化必須付出的代價。
另一方面,NVIDIA公司在40納米工藝上沒有做足功課。SemiAccurate網站數次獲悉,NVIDIA解決這些的問題的方法是向台積電相關人士“尖叫”宣洩情緒,而不是積極改變晶片設計。
當NVIDIA公司發現問題並希望在GF100上進行修補的時候,為時已晚。除非台積電製造工藝出現奇跡,否則基本上來看,GF100設計是註定要失敗。
可能有人要問為什麼? GF100晶片面大約550平方毫米,比我們之前報導的略大。 NVIDIA公司在100平方毫米晶片上遇到問題,在139平方毫米晶片遇到三個月的嚴重延誤,的產量問題,並取消任何較大面積的晶片設計。NVIDIA 沒有像ATI一樣做足40納米功課,現在卻試圖以40納米生產550平方毫米的GF100晶片。
基本的數學計算表明,GF100面積4倍於G215,它們之間在晶片結構上有某些類似,所以你可以預料GF100產率約為G215的1/16, G215本身產率就不高,但即使G215的產率為99%,你也可以預期GF100產率百分比只有個位數。
修復這些問題需要NVIDIA公司做ATI之前做過的功課,即改變晶片設計以適應台積電40納米工藝。這個過程需要很長的工程設計時間和基礎層重新流片,並可能需要針對旗艦產品進行一次金屬層重新流片。如果一切順利,NVIDIA還需要6個月才能帶來GF100的完美版。
雖然這對NVIDIA來說是一件壞事,而且有可能讓讓GF100胎死腹中。但以目前情況來看,GF100實際上變得更糟,該晶片現在尺寸巨大,並且發熱量也很大。業內人士告訴SemiAccurate,在2010 CES上展示的GF100顯卡功耗280瓦。 NVIDIA公司在GF100第一次流片之前,就知道晶片將消耗巨大的電力這一情況,但它強調作為通用計算用途,GF100顯卡功耗並未超出225瓦大關。
為了解決這一問題,NVIDIA的工程師告訴 SemiAccurate,NVIDIA決定讓GF100晶片運行在一個非常低的電壓,即1.05v,相比之下,ATI Cypress(HD 5800系列)工作電壓在1.15V,TDP功耗在188W瓦,費米GF100的既定TDP功耗為225瓦,GF100每0.01v電壓提升會導致工作電流50%的提升,簡而言之,NVIDIA日後如果要選擇提升GF100工作電壓,將帶來更大的功耗和發熱量。
我們之前已經談到台積電40納米工藝有很大可變性和差異度。即有電流“洩漏”問題存在,這意味著和Cypress(HD 5800系列)以及工作頻率更低的樣品晶片相比,GF100零售版將消耗更多電力。這種問題的傳統緩解辦法是提升電壓,讓發生問題的電晶體正常工作,但這也使得電晶體洩漏更多電流,洩漏越多,晶片的發熱量也越大。
溫度更高的電晶體洩漏也比溫度較低的電晶體更多,所以晶片就進入1個由洩漏導致的高溫迴圈,讓洩漏問題越來越惡化。這種惡性循環的解決辦法之一,就是在顯卡上採用更加強悍的散熱器和散熱風扇,但這樣將提升顯卡成本,並且增加噪音。NVIDIA史上的GeForce 5800就是這種惡性循環的典型案例。
台積電40納米這種問題,意味著有大量分散的薄弱的電晶體分佈於晶片當中,並導致想當程度的漏電問題。如果NVIDIA提升電壓,那麼他們也同時大規模提升晶片的功耗。如果不提升電壓,那麼大量脆弱的電晶體基本上不工作,意味著晶片實際上是“破損”或“缺陷” 的,這兩個目標相互對立,而NVIDIA現在低電壓,高電流的政策只會讓問題加速惡化。
如果這還不夠糟糕,消息來源告訴 SemiAccurate說,台積電40nm工藝非常熱敏感。電晶體漏電問題隨溫度提升成正比增加,激烈程度遠遠超過以前的工藝。如果你超過某一臨界溫度,漏電的快速上升令人震驚。
NVIDIA可採用的另一種方法是遮罩那些過於脆弱的電晶體,保持電壓不變。不幸的是,GF100在架構上的設計,讓這個變通方法非常棘手。費米 GF100架構上由16個組的32個著色單元組成,構成全部512個著色器。從各方面來看,如果你要遮罩脆弱的電晶體,你被迫去遮罩整個1組32個著色單元,由於脆弱電晶體分散在整個圖形晶片當中,因此,遮罩2組電晶體,把意味著你失去64個著色器,這種級別的著色器丟失,是NVIDIA無法承受的。
文章來源:
Nvidia's Fermi GTX480 is broken and unfixable
http://www.semiaccurate.com/2010/02...-and-unfixable/
|