在一個(gè)由7塊硬盤(pán)組成的RAID5陣列中,出現(xiàn)了存儲(chǔ)故障。管理員在硬盤(pán)掉線后僅添加了新硬盤(pán)進(jìn)行重建(rebuild),未移除掉線的舊盤(pán)。最終導(dǎo)致存儲(chǔ)系統(tǒng)癱瘓,多個(gè)硬盤(pán)故障使得數(shù)據(jù)不可訪問(wèn)。管理員初步判斷是RAID中某些硬盤(pán)掉線,導(dǎo)致存儲(chǔ)無(wú)法使用。
硬盤(pán)編號(hào)與取出:所有硬盤(pán)被編號(hào)并從存儲(chǔ)中取出。硬件工程師檢測(cè)發(fā)現(xiàn)硬盤(pán)無(wú)物理故障,推測(cè)問(wèn)題為邏輯壞道或其他原因。
全盤(pán)鏡像:為避免對(duì)原始硬盤(pán)數(shù)據(jù)造成破壞,所有硬盤(pán)以只讀方式進(jìn)行了扇區(qū)級(jí)的全盤(pán)鏡像。后續(xù)所有恢復(fù)操作基于鏡像文件完成。
分析底層數(shù)據(jù):鏡像盤(pán)中每扇區(qū)包含512字節(jié)數(shù)據(jù)和8字節(jié)的校驗(yàn)碼,因此每扇區(qū)實(shí)際大小為520字節(jié)。工程師編寫(xiě)程序去除8字節(jié)校驗(yàn),以便后續(xù)恢復(fù)操作。
舊盤(pán)排除:由于存在3塊掉線的舊盤(pán),首先需通過(guò)比較磁盤(pán)數(shù)據(jù)來(lái)識(shí)別并排除舊盤(pán)。通過(guò)分析,每對(duì)數(shù)據(jù)中有一塊盤(pán)的數(shù)據(jù)量較少,這些盤(pán)被識(shí)別為舊盤(pán)并排除。
識(shí)別RAID類(lèi)型:該陣列為雙循環(huán)RAID5,而非普通RAID5,這使得常規(guī)恢復(fù)軟件(如winhax)無(wú)法重組陣列。經(jīng)過(guò)測(cè)試,UFS軟件能夠正確重組該RAID結(jié)構(gòu)。
數(shù)據(jù)完整性測(cè)試:初步恢復(fù)的RAID中數(shù)據(jù)并非最新版本。華軍科技工程師判斷,因管理員未及時(shí)處理掉線硬盤(pán),導(dǎo)致兩塊硬盤(pán)掉線后數(shù)據(jù)更新不完整。
踢盤(pán)測(cè)試:通過(guò)嘗試踢掉每塊硬盤(pán),反復(fù)重組RAID,測(cè)試最新數(shù)據(jù)的可用性。直到找出能夠生成最新數(shù)據(jù)的組合,恢復(fù)操作才告一段落。
數(shù)據(jù)導(dǎo)出與驗(yàn)證:導(dǎo)出數(shù)據(jù)后,經(jīng)過(guò)多輪驗(yàn)證,工程師確認(rèn)數(shù)據(jù)沒(méi)有問(wèn)題,并交由用戶方檢測(cè)。
用戶方確認(rèn):用戶方對(duì)恢復(fù)數(shù)據(jù)進(jìn)行了仔細(xì)核對(duì),確認(rèn)數(shù)據(jù)完整有效。
本次數(shù)據(jù)恢復(fù)過(guò)程中,關(guān)鍵在于:
精確排除舊盤(pán),以確保RAID重組時(shí)使用的數(shù)據(jù)是最新的。
通過(guò)踢盤(pán)測(cè)試和多次RAID重組,找回最新且完整的數(shù)據(jù)版本。
最終,用戶確認(rèn)數(shù)據(jù)恢復(fù)完整有效,整個(gè)恢復(fù)工作圓滿完成。