![]() |
||
|
Major Member
![]() 加入日期: Feb 2006
文章: 216
|
PTT2 還上得去,官方也有開臉書發公告:重建陣列時又操掛別顆硬碟......
這種鳥事偶而會從 MIS 或 NAS 的相關社群裡聽到,好像其實不罕見 ![]() ![]() 反正 PTT 常常壞硬碟啦,好像也從來沒造成什麼損害,老鄉民應該都遇過不少次 記得有一次比較扯的是硬碟滿了,結果當天某個時間點以後的所有資料流失,這是我有印象的 PTT 資料災難事件,反而不是硬碟壞掉造成的 ![]() |
|||||||
|
|
|
Amateur Member
![]() 加入日期: Mar 2013 您的住址: 貓貓窩
文章: 45
|
人品真差 連死三顆 乖乖有擺嗎
![]()
__________________
|
||
|
|
|
Golden Member
![]() ![]() ![]() ![]() 加入日期: Apr 2003
文章: 2,600
|
引用:
很難估算,通常是壞同一批,我們公司也有類似經驗,RAID一次壞兩顆, 機器越多機率應該越高,重要資料庫光RAID不夠,最好要有叢集容錯 |
|
|
|
|
Elite Member
![]() ![]() ![]() ![]() ![]() 加入日期: Mar 2001 您的住址: Rivia
文章: 7,055
|
不管甚麼等級的raid
平時沒做crc效驗,發生這種事情 其實不算是意外
__________________
Folding@home with GPGPU集中討論串 Unix Review: ArchLinux●Sabayon●OpenSolaris 2008.5●Ubuntu 8.10 AVs Review: GDTC●AntiVir SS●ESS●KIS 09●NIS 09●Norton 360 V3 ![]() I Always Get What I Want. |
|
|
|
*停權中*
加入日期: Oct 2017
文章: 40
|
所以是甚麼爛硬碟,是可以讓全台灣最大的網站犯這種低級錯誤 XD
|
|
|
|
*停權中*
加入日期: Apr 2017
文章: 2,836
|
引用:
不只 台灣人對陣列的觀念很弱,都以為可以放著不管 都以為壞一顆就換掉那顆,然後就能重建還原 更好的作法是 1.定期備份 2.定期拆出硬碟全盤掃描、更換已經開始不良的硬碟 要知道陣列的硬碟幾乎都是同時間組裝上去 那麼每顆的使用時間是差不多的 而硬碟這東西一出廠就有壞軌,只是被屏蔽掉 持續使用只會產生更多壞軌 當哪天陣列其中一顆的壞軌多到讓那顆硬碟停擺,通常才會被發現 而這時通常其他顆也不會是"0壞軌"的狀態 這時如果去重建還原,是需要其他幾顆硬碟的資料,缺一不可 很可能重建時其中幾顆又讀到壞軌區......然後就GG |
|
|
|
|
Major Member
![]() 加入日期: Aug 2001 您的住址: UO - Formosa - Britain
文章: 258
|
只要是機械式硬碟,哪時回老家全都是睹人品阿
最近剛好在整批替換 NAS 上的硬碟,RAID5 (4TB*5),每次抽換一顆(4TB->6TB)然後rebuild,loop...loop... 我是整整連續一個星期都在跑,共重建了5+1次,強運的順利結束 ![]()
__________________
1984•18歲的Sophie...很挺喔
|
|
|
|
Golden Member
![]() ![]() ![]() ![]() 加入日期: Apr 2003
文章: 2,600
|
一般公司大型伺服器哪有可能讓你HDD一台台慢慢檢查? 一定都是製造廠商
的硬體偵測Agent自動回報。 PTT伺服器可能是自己組的RAID,或是沒裝Agent |
|
|
|
Major Member
![]() 加入日期: Feb 2006
文章: 216
|
引用:
https://disp.cc/b/611-5MXy 以這篇八年前的統計來看(2013年的文章但引用的數據是2009年),應該不太可能是光華牌的機器啦 機器:8 CPU,64GB ram,3 組 raid,各 12,12,4 顆硬碟, 有的用 RAID 5 有的 RAID 10 而且現在的機器應該不只這樣,這篇舊文章提到的機器可能就是明天要臨時拿來用的「舊機器」,PTT 主機是放在台大資工系館的機房裡面,應該就是一台規規矩矩的品牌伺服器 不過進去過的人好像都沒興趣幫它拍張照就是了,所以都沒照片流傳 此文章於 2017-10-31 10:45 PM 被 coolcliff01 編輯. |
|
|
|
|
Major Member
![]() 加入日期: Feb 2006
文章: 216
|
引用:
RAID 一般日常維護能做的不就 Consistency Check 跟 Patrol Read ?這兩個都不能防止陣列重建時連環爆炸吧 ![]() |
|
|
|