PCDVD數位科技討論區
PCDVD數位科技討論區   註冊 常見問題 標記討論區為已讀

回到   PCDVD數位科技討論區 > 電腦硬體討論群組 > 儲存媒體討論區
帳戶
密碼
 

  回應
 
主題工具
vxr
Elite Member
 
vxr的大頭照
 

加入日期: May 2002
您的住址: 地球的上面..
文章: 5,854
Exclamation LSI Media Error Issue


A media error is a bad sector on a disk that the SMART system of the hard disk is unable to correct for. Every disk has bad sectors, and the SMART system can correct for them, but only up to a certain amount (due to memory limitations of SMART). Any disk with media errors should be immediately replaced as these bad sectors could corrupt data on the array.

Issues with media errors are greatly magnified if an OS side disk check is done. CHKDSK and other OS side disk verification algorithms are not recommended for use on RAID sets due to the limited intelligence of these algorithms and their lack of RAID awareness. Only controller side operations should be done on these (such as a consistency check). In extreme cases with high counts of media errors, consistency check can corrupt data as well. Data should be verified prior to running a consistency check when issues are found. If the data is accessible, it should be backed up prior to running a consistency check on the array.

如果您在MegaRAID產品偵測到PD上存在bad sector情況, 並且這種是unrecoverable. 如下圖透過MSM偵測到的問題:

為了佐證這個問題, 使用Hard Disk Sentinel另外進行偵測:

可以發現確實產生了兩個無法復原的錯誤. 如果在CC的情況下, 會有CC failed的情況發生, 見下圖:

籃框是CC過程中, 控制器感測到的錯誤情況(read error), 這記載了難以復原的問題. Port 1-3: Slot 12上的PD發生問題. 兩個media error. 最後造成了紅框上的整個CC failed, media error是嚴重的臨界性問題, 如果沒有進行任何校驗(verify)動作, 可能會由RAID controller的SMART偵測機制判別錯誤.
為了保證問題上的處理, 備援數據的操作顯然是非常重要的. 但是media error是一個事後發生, 如果這個意外發生了, 將會影響數據穩定性. 針對問題上的處理, 請即刻進行patrol read的media scan操作:

請不要忽視這個操作, 他是非常重要的. 當這個操作產生時, 對於bad sector的處理, 顯然會嘗試校正. 進行sector remapping, 再次強調! 請不要略過這個操作的重要性. 在過程中, 可藉由Background operations查看進度情況:

透過以下的相關event log看出patrol read對於media error的處理:

在patrol read的media scan操作完後, 便可以繼續後續上的處理, 例如重新再嘗試操作CC以重校正相關的parity數據. 當確保CC的完成後, 您可以對有問題的PD進行replacing a drive動作, 使用rebuild或著copyback操作.
1. rebuild會利用其他的PD透過parity進行XOR operation, 這時存在的new drive, 也就是創建的hot spare回被重建數據.
2. copback是一項高級的RAID操作, 當patrol read以及CC完成後, 便可以嘗試這個操作的使用. 他會將指定的來源PD進行數據回拷, 把全部數據導回至目的PD.

Notes: 使用rebuild, 當這個操作完成後. 如果您在有問題的PD進行替換(replace)操作, 換上一顆new drive. 沒多久便會觸發copyback操作, 他會將之前重建好的PD回拷數據到new drive. 最後整個操作完成過後, 便會將之前重建好的PD再次標示為hot-spare. 可以稱做這種hot-spare為revertable hot-spare.
     
      
舊 2012-04-14, 08:29 AM #1
回應時引用此文章
vxr離線中  
zelus
Regular Member
 

加入日期: Dec 2001
您的住址: taipei
文章: 56
謝謝vxr分享,小弟太慢看到這篇文章了....

上一組Dell 6/i裝MegaRAID軟體,一直有看到Unexpected sense的錯誤,但是沒意識到是硬碟問題,結果持續這樣錯誤訊息半年左右,後來硬碟掛了,掉了幾T資料...Orz
 
舊 2013-12-03, 10:05 AM #2
回應時引用此文章
zelus離線中  
shihi
Advance Member
 

加入日期: Jul 2001
您的住址: 高雄市
文章: 310
若是Patrol Read後
CC一樣出現錯誤訊息
那是直接換掉硬碟嗎?
還是把有問題那顆獨立出來
格式化掃瞄看看?
舊 2013-12-11, 01:17 PM #3
回應時引用此文章
shihi離線中  
vxr
Elite Member
 
vxr的大頭照
 

加入日期: May 2002
您的住址: 地球的上面..
文章: 5,854
Exclamation

引用:
作者shihi
若是Patrol Read後
CC一樣出現錯誤訊息
那是直接換掉硬碟嗎?
還是把有問題那顆獨立出來
格式化掃瞄看看?

這要根據tty log當前的狀況而定...

直接更換恐怕有數據安全性的問題..
一種方式就是在裝上一顆HDD..
強制操作copyback到該HDD上..
舊 2013-12-11, 01:30 PM #4
回應時引用此文章
vxr離線中  
shihi
Advance Member
 

加入日期: Jul 2001
您的住址: 高雄市
文章: 310
傷腦筋的是手邊沒有多餘的相同硬碟
因為本來是RAID1
想說2顆SAS同時出問題的機率不大
所以確認一顆有問題的話
趕快換一顆回來裝上
舊 2013-12-11, 01:47 PM #5
回應時引用此文章
shihi離線中  
chaotommy
Elite Member
 

加入日期: Mar 2003
您的住址: Vancouver, Canada
文章: 15,006
Bookmark.......
舊 2013-12-11, 01:51 PM #6
回應時引用此文章
chaotommy離線中  
vxr
Elite Member
 
vxr的大頭照
 

加入日期: May 2002
您的住址: 地球的上面..
文章: 5,854
Exclamation

引用:
作者shihi
傷腦筋的是手邊沒有多餘的相同硬碟
因為本來是RAID1
想說2顆SAS同時出問題的機率不大
所以確認一顆有問題的話
趕快換一顆回來裝上

不需要相同硬碟..
如果是同等容量的HDD..
你只要在乎意一個情況...
容量誤差不要太大差異..
因為一般disk coercion功能預設是關閉的...
否則就是超出原來的容量..
ex:
old: 1TB HDD=> new: 1.5TB
舊 2013-12-11, 02:37 PM #7
回應時引用此文章
vxr離線中  
shihi
Advance Member
 

加入日期: Jul 2001
您的住址: 高雄市
文章: 310
還真的好像沒有
只剩一顆146G的SAS
跟2顆250G的SATA
偏偏RAID用的是300G的SAS

引用:
作者vxr
不需要相同硬碟..
如果是同等容量的HDD..
你只要在乎意一個情況...
容量誤差不要太大差異..
因為一般disk coercion功能預設是關閉的...
否則就是超出原來的容量..
ex:
old: 1TB HDD=> new: 1.5TB
舊 2013-12-11, 02:56 PM #8
回應時引用此文章
shihi離線中  
Chang JQ JQ
Master Member
 

加入日期: Jan 2002
您的住址: 桃園
文章: 2,018
翻譯機所翻譯的中文 ?

反正壞了就是壞了,跑陣列時,陣列卡會取代 SMART 上面的壞軌訊息,
也就是所謂的 Media Error 。

送修吧

SAS 是 WD ? SAS 比較推薦購買 希捷
舊 2013-12-11, 03:53 PM #9
回應時引用此文章
Chang JQ JQ離線中  
shihi
Advance Member
 

加入日期: Jul 2001
您的住址: 高雄市
文章: 310
是seagate的15K7
你的意思是說
Media Error就是壞軌
不需要重新再壞軌掃瞄了?

引用:
作者Chang JQ JQ
翻譯機所翻譯的中文 ?

反正壞了就是壞了,跑陣列時,陣列卡會取代 SMART 上面的壞軌訊息,
也就是所謂的 Media Error 。

送修吧

SAS 是 WD ? SAS 比較推薦購買 希捷
舊 2013-12-11, 04:06 PM #10
回應時引用此文章
shihi離線中  


    回應


POPIN
主題工具

發表文章規則
不可以發起新主題
不可以回應主題
不可以上傳附加檔案
不可以編輯您的文章

vB 代碼打開
[IMG]代碼打開
HTML代碼關閉



所有的時間均為GMT +8。 現在的時間是11:50 AM.


vBulletin Version 3.0.1
powered_by_vbulletin 2025。