![]() |
||
Elite Member
加入日期: May 2002 您的住址: 地球的上面..
文章: 5,854
|
![]() ![]() A media error is a bad sector on a disk that the SMART system of the hard disk is unable to correct for. Every disk has bad sectors, and the SMART system can correct for them, but only up to a certain amount (due to memory limitations of SMART). Any disk with media errors should be immediately replaced as these bad sectors could corrupt data on the array. Issues with media errors are greatly magnified if an OS side disk check is done. CHKDSK and other OS side disk verification algorithms are not recommended for use on RAID sets due to the limited intelligence of these algorithms and their lack of RAID awareness. Only controller side operations should be done on these (such as a consistency check). In extreme cases with high counts of media errors, consistency check can corrupt data as well. Data should be verified prior to running a consistency check when issues are found. If the data is accessible, it should be backed up prior to running a consistency check on the array. 如果您在MegaRAID產品偵測到PD上存在bad sector情況, 並且這種是unrecoverable. 如下圖透過MSM偵測到的問題: ![]() 為了佐證這個問題, 使用Hard Disk Sentinel另外進行偵測: ![]() 可以發現確實產生了兩個無法復原的錯誤. 如果在CC的情況下, 會有CC failed的情況發生, 見下圖: ![]() 籃框是CC過程中, 控制器感測到的錯誤情況(read error), 這記載了難以復原的問題. Port 1-3: Slot 12上的PD發生問題. 兩個media error. 最後造成了紅框上的整個CC failed, media error是嚴重的臨界性問題, 如果沒有進行任何校驗(verify)動作, 可能會由RAID controller的SMART偵測機制判別錯誤. 為了保證問題上的處理, 備援數據的操作顯然是非常重要的. 但是media error是一個事後發生, 如果這個意外發生了, 將會影響數據穩定性. 針對問題上的處理, 請即刻進行patrol read的media scan操作: ![]() 請不要忽視這個操作, 他是非常重要的. 當這個操作產生時, 對於bad sector的處理, 顯然會嘗試校正. 進行sector remapping, 再次強調! 請不要略過這個操作的重要性. 在過程中, 可藉由Background operations查看進度情況: ![]() 透過以下的相關event log看出patrol read對於media error的處理: ![]() 在patrol read的media scan操作完後, 便可以繼續後續上的處理, 例如重新再嘗試操作CC以重校正相關的parity數據. 當確保CC的完成後, 您可以對有問題的PD進行replacing a drive動作, 使用rebuild或著copyback操作. 1. rebuild會利用其他的PD透過parity進行XOR operation, 這時存在的new drive, 也就是創建的hot spare回被重建數據. 2. copback是一項高級的RAID操作, 當patrol read以及CC完成後, 便可以嘗試這個操作的使用. 他會將指定的來源PD進行數據回拷, 把全部數據導回至目的PD. Notes: 使用rebuild, 當這個操作完成後. 如果您在有問題的PD進行替換(replace)操作, 換上一顆new drive. 沒多久便會觸發copyback操作, 他會將之前重建好的PD回拷數據到new drive. 最後整個操作完成過後, 便會將之前重建好的PD再次標示為hot-spare. 可以稱做這種hot-spare為revertable hot-spare. |
|||||||
![]() |
![]() |
Regular Member
![]() ![]() 加入日期: Dec 2001 您的住址: taipei
文章: 56
|
謝謝vxr分享,小弟太慢看到這篇文章了....
上一組Dell 6/i裝MegaRAID軟體,一直有看到Unexpected sense的錯誤,但是沒意識到是硬碟問題,結果持續這樣錯誤訊息半年左右,後來硬碟掛了,掉了幾T資料...Orz |
||
![]() |
![]() |
Advance Member
![]() ![]() 加入日期: Jul 2001 您的住址: 高雄市
文章: 310
|
若是Patrol Read後
CC一樣出現錯誤訊息 那是直接換掉硬碟嗎? 還是把有問題那顆獨立出來 格式化掃瞄看看? |
![]() |
![]() |
Elite Member
加入日期: May 2002 您的住址: 地球的上面..
文章: 5,854
|
![]() 引用:
這要根據tty log當前的狀況而定... 直接更換恐怕有數據安全性的問題.. 一種方式就是在裝上一顆HDD.. 強制操作copyback到該HDD上.. |
|
![]() |
![]() |
Advance Member
![]() ![]() 加入日期: Jul 2001 您的住址: 高雄市
文章: 310
|
傷腦筋的是手邊沒有多餘的相同硬碟
因為本來是RAID1 想說2顆SAS同時出問題的機率不大 所以確認一顆有問題的話 趕快換一顆回來裝上 |
![]() |
![]() |
Elite Member
![]() ![]() ![]() ![]() ![]() 加入日期: Mar 2003 您的住址: Vancouver, Canada
文章: 15,006
|
Bookmark.......
|
![]() |
![]() |
Elite Member
加入日期: May 2002 您的住址: 地球的上面..
文章: 5,854
|
![]() 引用:
不需要相同硬碟.. 如果是同等容量的HDD.. 你只要在乎意一個情況... 容量誤差不要太大差異.. 因為一般disk coercion功能預設是關閉的... 否則就是超出原來的容量.. ex: old: 1TB HDD=> new: 1.5TB |
|
![]() |
![]() |
Advance Member
![]() ![]() 加入日期: Jul 2001 您的住址: 高雄市
文章: 310
|
還真的好像沒有
只剩一顆146G的SAS 跟2顆250G的SATA 偏偏RAID用的是300G的SAS 引用:
|
|
![]() |
![]() |
Master Member
![]() ![]() ![]() ![]() 加入日期: Jan 2002 您的住址: 桃園
文章: 2,018
|
翻譯機所翻譯的中文 ?
反正壞了就是壞了,跑陣列時,陣列卡會取代 SMART 上面的壞軌訊息, 也就是所謂的 Media Error 。 送修吧 SAS 是 WD ? SAS 比較推薦購買 希捷 |
![]() |
![]() |
Advance Member
![]() ![]() 加入日期: Jul 2001 您的住址: 高雄市
文章: 310
|
是seagate的15K7
你的意思是說 Media Error就是壞軌 不需要重新再壞軌掃瞄了? 引用:
|
|
![]() |
![]() |