瀏覽單個文章
vxr
Elite Member
 
vxr的大頭照
 

加入日期: May 2002
您的住址: 地球的上面..
文章: 5,854
Exclamation LSI Media Error Issue


A media error is a bad sector on a disk that the SMART system of the hard disk is unable to correct for. Every disk has bad sectors, and the SMART system can correct for them, but only up to a certain amount (due to memory limitations of SMART). Any disk with media errors should be immediately replaced as these bad sectors could corrupt data on the array.

Issues with media errors are greatly magnified if an OS side disk check is done. CHKDSK and other OS side disk verification algorithms are not recommended for use on RAID sets due to the limited intelligence of these algorithms and their lack of RAID awareness. Only controller side operations should be done on these (such as a consistency check). In extreme cases with high counts of media errors, consistency check can corrupt data as well. Data should be verified prior to running a consistency check when issues are found. If the data is accessible, it should be backed up prior to running a consistency check on the array.

如果您在MegaRAID產品偵測到PD上存在bad sector情況, 並且這種是unrecoverable. 如下圖透過MSM偵測到的問題:

為了佐證這個問題, 使用Hard Disk Sentinel另外進行偵測:

可以發現確實產生了兩個無法復原的錯誤. 如果在CC的情況下, 會有CC failed的情況發生, 見下圖:

籃框是CC過程中, 控制器感測到的錯誤情況(read error), 這記載了難以復原的問題. Port 1-3: Slot 12上的PD發生問題. 兩個media error. 最後造成了紅框上的整個CC failed, media error是嚴重的臨界性問題, 如果沒有進行任何校驗(verify)動作, 可能會由RAID controller的SMART偵測機制判別錯誤.
為了保證問題上的處理, 備援數據的操作顯然是非常重要的. 但是media error是一個事後發生, 如果這個意外發生了, 將會影響數據穩定性. 針對問題上的處理, 請即刻進行patrol read的media scan操作:

請不要忽視這個操作, 他是非常重要的. 當這個操作產生時, 對於bad sector的處理, 顯然會嘗試校正. 進行sector remapping, 再次強調! 請不要略過這個操作的重要性. 在過程中, 可藉由Background operations查看進度情況:

透過以下的相關event log看出patrol read對於media error的處理:

在patrol read的media scan操作完後, 便可以繼續後續上的處理, 例如重新再嘗試操作CC以重校正相關的parity數據. 當確保CC的完成後, 您可以對有問題的PD進行replacing a drive動作, 使用rebuild或著copyback操作.
1. rebuild會利用其他的PD透過parity進行XOR operation, 這時存在的new drive, 也就是創建的hot spare回被重建數據.
2. copback是一項高級的RAID操作, 當patrol read以及CC完成後, 便可以嘗試這個操作的使用. 他會將指定的來源PD進行數據回拷, 把全部數據導回至目的PD.

Notes: 使用rebuild, 當這個操作完成後. 如果您在有問題的PD進行替換(replace)操作, 換上一顆new drive. 沒多久便會觸發copyback操作, 他會將之前重建好的PD回拷數據到new drive. 最後整個操作完成過後, 便會將之前重建好的PD再次標示為hot-spare. 可以稱做這種hot-spare為revertable hot-spare.
     
      
舊 2012-04-14, 08:29 AM #1
回應時引用此文章
vxr離線中