華軍HP EVA4400/6400/8400/P6000數(shù)據(jù)恢復(fù)方案

HP EVA4400/6400/8400因接近退役,已進入高故障區(qū)間,用戶往往會認(rèn)為花費幾十萬甚至上百萬購買的eva系列應(yīng)該是非常穩(wěn)定的,但實際上無論多么昂貴的存儲設(shè)備,使用的磁盤是相同或相似的。
EVA系列存儲是一款以虛擬化存儲為實現(xiàn)目的的HP中高端存儲設(shè)備,內(nèi)部的結(jié)構(gòu)組成完全不同于普通的基于簡單RAID的存儲,EVA內(nèi)部稱之為VRAID。包括一些資深的HP工程師,對EVA的理解其實是有誤區(qū)的(也可能是HP官方的宏觀描述)
EVA會對每個物理磁盤(簡稱為PV)進行簽名(寫在每個磁盤的0扇區(qū)),簽名后即分配進不同的DISK GROUP。在disk group中,類似于aix 的卷管理,或HP LVM的卷管理一樣,每個PV會按一定大小劃分為若干存儲單元(按AIX的說法,暫且稱為PP吧),PP的大小為2的整數(shù)次冪,且應(yīng)該在2-16M之間。
每個PV中有有限數(shù)量的PP,這些PP合起來形成整個DISK GROUP的可用空間。所有的PV按5-15組成若干組RSS(HP的官方資料中講最小的RSS磁盤數(shù)量是6,最大應(yīng)不到15,但對底層的分析得知,存在5和15個PV的RSS情況),每個RSS就是一個所謂常規(guī)RAID的冗余組,但這個冗余組不等同于常規(guī)RAID,與常規(guī)RAID相似的是,常規(guī)RAID是以磁盤為單位的RAID算法,而RSS是基于PP的RAID算法。
一. 【EVA系列常見故障】

第一:1、RSS中多個磁盤掉線,超過冗余保護級別。
第二:加入新磁盤,進行數(shù)據(jù)遷移時,新磁盤存在物理故障(此時無法回退,也無法前進)。
第三:VDISK 刪除或EVA initialize。
第三:突發(fā)性主機與存儲無法連接。無法discover到存儲。
二. 【數(shù)據(jù)恢復(fù)解決原理】

第一步:eva系列最核心的結(jié)構(gòu)部分來自于所有vdisk的運算pp表,這個pp map表會因為磁盤的不斷遷移而遷移。所有的故障均可基于此map進行恢復(fù)。
第二步:當(dāng)pp map不存在時,根據(jù)不同的條帶之間的冗余關(guān)系,可有優(yōu)化算法對所有PP進行條帶性集合,從而形成若干組正確的條帶數(shù)據(jù),再基于文件系統(tǒng)結(jié)構(gòu)、數(shù)據(jù)結(jié)構(gòu)等特征,重組若干條帶。
三. 【數(shù)據(jù)恢復(fù)解決過程】
A:原始磁盤鏡像,將EVA主機一端的連線拔出,直接連入主機hba卡上,就可以認(rèn)到所有物理硬盤,之后通過專業(yè)手段(Linux下的dd,windows下的winhex等)進行磁盤鏡像。因eva主機與擴展柜之間多是銅線連接,故而,可能需要在擴展柜上增加光纖收發(fā)模塊,再通過光鏈路接入fc hba卡上。當(dāng)然,也可以把所有硬盤拆下來后,放入其他光纖通道柜中進行鏡像。
B:通過針對每塊盤首部信息進行收集處理,查找BlockMapping數(shù)據(jù)結(jié)構(gòu),對數(shù)據(jù)進行全面分析得出,每個LUN的BlockMapping存放的位置和形式有兩種形式:1、放于每塊硬盤的首部;2、存放在該LUN的起始位置。
C:分析LUN配置參數(shù)通過META信息的對照,以及通過xor信息區(qū)的校驗驗證。得出配置表
D:重組整合所有LUN的分配表
E:根據(jù)存儲分配表及RSS磁盤分配表,對所有LUN進行信息提取,提取過程中,對不通過XOR條帶的進行人工分析,確定得到最佳重組結(jié)論。
F:通過華軍數(shù)據(jù)恢復(fù)工具對數(shù)據(jù)進行重組后的提取。
聯(lián)系我們




上一篇:正確的Ghost還原流程