HDS USPV-VSP HP XP24000 Raid崩潰陣列損壞數(shù)據(jù)恢復(fù)方法思路分享
1、->HDS故障來源報修
HDS USPV存儲上掛載的220塊硬盤中,數(shù)據(jù)大部分已經(jīng)遷移,由于機房突然斷電,機器重啟后,發(fā)現(xiàn)存儲里面還有一個最重要27TB的ORACLE數(shù)據(jù)庫還沒有遷移出來,8塊硬盤損壞,其中有對應(yīng)的鏡相盤有故障,所以raid陣列組損壞 卷無法識別加載/整市政務(wù)業(yè)務(wù)全部癱瘓,此次遇到的故障特殊,當(dāng)故障盤和同位置備份盤一起壞時,HDS廠家工程師也無法處理。需要上門配合進(jìn)行緊急數(shù)據(jù)恢復(fù)處理。
客戶是廈門某上市公司,運維著省政務(wù)系統(tǒng),上次龍巖三明地區(qū)有配合過,聯(lián)系上了北京技佳瑞康科技有限公司廈門分公司的羅工上門恢復(fù)
2、->HDS存儲產(chǎn)品背景分析
本次要恢復(fù)的是一臺HDS USPV,以前接觸過HDS USP VSP及HP StorageWorks XP24000XP2000機器其實都一樣,只是相觀上有改進(jìn)一些,底層都一樣,都是日立產(chǎn)的智能高端存儲,這種機器一般不容易出故障,出故障也在同臺機器上有備份,除非是故障盤和備份盤一起壞,那這種概率是非常低的,但不怕一萬,就怕萬一,因機器常期運轉(zhuǎn),時間久了,硬盤有達(dá)到極限壽命,經(jīng)常有一斷電關(guān)機后,重啟時認(rèn)不到故障盤和相對應(yīng)的同位置的鏡相備份盤,導(dǎo)致硬盤陣列損壞,關(guān)鍵數(shù)據(jù)無法使用。同時早期的硬盤有設(shè)計上的缺陷。 一般此類存儲陣列都有備份,如果出一般問題,只要請HDS廠家的工程師出手在存儲管理界面直接更換硬盤即可,
具體可查看:如何更換HDS USPV 硬盤文章篇
此次遇到的故障特殊,當(dāng)故障盤和同位置備份盤一起壞時,HDS廠家工程師也無法處理。
3、-> HDS存儲故障檢測分析
這類存儲故障難點一:不可以硬件漫游,不支持同型號的硬盤直接替換,HDS存儲每個均需自定義后啟用,故障狀態(tài)下不能建新raid陣列組,故常規(guī)遷移法不適用。 難點二:這四種存儲硬盤為特殊硬盤,每扇區(qū)為520字節(jié),與512字節(jié)/扇區(qū)硬盤不一樣,多8個字節(jié)的較驗位,所以這種硬盤一般機器上是不認(rèn)的。
此次故障是Ibm P590小型機的應(yīng)用數(shù)據(jù)存儲在HDS USPV上。
操作系統(tǒng)為AIX創(chuàng)建的Logical Volume Type為JFS。
USPV故障日志
由于HDS USPV智能存儲上的硬盤達(dá)到了使用的極限年限,一次上電下電就造成10塊硬盤損壞,由此可知上下電隨時可能對硬盤造成二次破壞。
4、->故障邏輯分析報告
根據(jù)HDS USPV上的盤序分析得知:
3-7:0,1,2,3 4-7:4,5,6,7 找出對應(yīng)盤位圖
分析得知,數(shù)據(jù)層盤關(guān)系
及數(shù)據(jù)恢復(fù)方案
5、->修復(fù)方案簡介
數(shù)據(jù)修復(fù)可以采用不同的方法達(dá)到相同的恢復(fù)目的,但不同的方法卻具有不同的風(fēng)險等級和不同的數(shù)據(jù)完整性保障。
本方案將綜合使用以下兩種方案,全面確保數(shù)據(jù)安全:
方案一和二的前提:備份8塊故障硬盤的鏡相,確保上下電不會對硬盤再次造成損壞。
方案一、鏡相并替換這兩塊壞的硬盤 520to520 需要改盤刷固件,時間5-6天,在操作中,已操作完3天,再有3天操作時間。
優(yōu)點:數(shù)據(jù)可恢復(fù)為故障發(fā)生前的狀態(tài);恢復(fù)速度快,成功恢復(fù)后,可以直接映射給AIX文件系統(tǒng),第一時間恢復(fù)應(yīng)用;數(shù)據(jù)恢復(fù)的完整性最為可靠。
缺點:由于技術(shù)難度高,此批次日立備件盤為光纖非標(biāo)硬盤,520K/扇區(qū)。
已使用替換法,HDS存儲不能直接認(rèn)存儲替換盤的話,第一次方案失敗。
方案二:鏡像硬盤,組虛擬陣列,在虛擬陣列中恢復(fù)數(shù)據(jù)
優(yōu)點:鏡像完成以后,不再使用原有硬盤,可以做多樣化組合嘗試;不會影響原盤數(shù)據(jù),恢復(fù)的安全性、可逆性極強。
缺點:耗時長;數(shù)據(jù)一般情況可以完整恢復(fù),但如果遇到硬盤損壞較多,也有可能是部分恢復(fù)。
根據(jù)現(xiàn)場情況,原HDS USPV因為老化原因,上下電隨時會對硬盤部件受到不同程度的影響和損傷,為了防止該套設(shè)備的故障可能帶給數(shù)據(jù)的威脅(例如,因設(shè)備故障而導(dǎo)致的陣列離線,從而串改硬盤中的陣列狀態(tài)),我們也考慮數(shù)據(jù)恢復(fù)前棄用該設(shè)備,轉(zhuǎn)而尋求一套功能完整、性能穩(wěn)定的替用設(shè)備,考慮中,并進(jìn)行穩(wěn)定性測試,隨時等候調(diào)遣。
故商議后,實施第二套方案:
方案二:鏡像硬盤,組虛擬陣列,在虛擬陣列中恢復(fù)數(shù)據(jù)
優(yōu)點:鏡像完成以后,不再使用原有硬盤,可以做多樣化組合嘗試;不會影響原盤數(shù)據(jù),恢復(fù)的安全性、可逆性極強。
對存儲所有的數(shù)據(jù)遷移完后,對8塊陣列故障成員盤進(jìn)行備份并520字節(jié)/扇區(qū) 轉(zhuǎn)成512字節(jié)/扇區(qū) 處理:
為解決AIX創(chuàng)建的Logical Volume Type為JFS文件系統(tǒng)問題,與數(shù)據(jù)恢復(fù)專家老師過來技術(shù)支持,同時用剛研發(fā)的IBM AIX數(shù)據(jù)恢復(fù)軟件并為軟件提供測試恢復(fù)環(huán)境:
實施步驟如下:8塊故障盤520TO512處理轉(zhuǎn)化備份,使windows下可以處理。
組出RAID后,分析LUN,導(dǎo)出原陣列里面的8個VG,導(dǎo)入到華為存儲預(yù)設(shè)計的VG,加載到IBM小型機的AIX環(huán)境中,驗證數(shù)據(jù)。
可視化恢復(fù)及導(dǎo)出過程
數(shù)據(jù)恢復(fù)結(jié)果驗證
北京技佳瑞康科技有限公司廈門分公司的羅工和客戶方一起努力,歷時8天,數(shù)據(jù)100%恢復(fù)成功,客戶方工程師對所有數(shù)據(jù)和ORACLE數(shù)據(jù)庫進(jìn)行現(xiàn)場驗證,數(shù)據(jù)恢復(fù)完美驗證。
總結(jié):HDS高端存儲雖然穩(wěn)定,但也是要經(jīng)常機房巡檢,數(shù)據(jù)還是要有備份,有備無患!很多時候物理層恢復(fù)了,但是存儲的狀態(tài)還是不行或是硬盤狀態(tài)不對,類似于我去年恢復(fù)的HP XP2400上面掛載了220多個硬盤,針對多盤的服務(wù)器,一定要思路和邏輯清晰,方案成熟后再著手去恢復(fù)處理
北京技佳瑞康科技發(fā)展有限公司成立長2012年,國家保密局涉密數(shù)據(jù)恢復(fù)資質(zhì)單位,總部位于北京,在上海、深圳、廈門、南京等地設(shè)有分公司http://www.databack.com.cn ,聯(lián)想集團數(shù)據(jù)恢復(fù)供應(yīng)商, 2017-2019北京市政務(wù)信息安全應(yīng)急保障單位,北京市誠信創(chuàng)建企業(yè),中國石油IBM 渣打銀行數(shù)據(jù)恢復(fù)服務(wù)商,針對服務(wù)器和高端存儲,機房云數(shù)據(jù)故障等應(yīng)急服務(wù)有豐富的經(jīng)驗。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!