在人工智能驅(qū)動(dòng)的數(shù)字時(shí)代,海量數(shù)據(jù)的高效存儲(chǔ)與快速調(diào)用成為AI應(yīng)用的核心支柱。從智能推薦系統(tǒng)的實(shí)時(shí)數(shù)據(jù)處理,到深度學(xué)習(xí)模型的參數(shù)訓(xùn)練,固態(tài)硬盤(SSD)以其卓越的讀寫速度與穩(wěn)定性,正成為AI基礎(chǔ)設(shè)施的關(guān)鍵組件。然而,鮮為人知的是,在微觀世界中,中子輻射引發(fā)的比特翻轉(zhuǎn)問題,正悄然威脅著AI的數(shù)據(jù)安全與系統(tǒng)穩(wěn)定性。
1.測(cè)試背景與環(huán)境
1.1測(cè)試背景
中子,作為一種不帶電的亞原子粒子,廣泛存在于宇宙射線、高海拔地區(qū)、核電站周邊等環(huán)境中。當(dāng)這些微小的粒子穿透SSD的存儲(chǔ)單元時(shí),可能會(huì)導(dǎo)致存儲(chǔ)芯片中的比特值發(fā)生意外翻轉(zhuǎn),使得原本存儲(chǔ)的“0”變成“1”,“1”變成“0”。這種看似微不足道的變化,在AI應(yīng)用的海量數(shù)據(jù)處理場(chǎng)景下,可能引發(fā)數(shù)據(jù)錯(cuò)誤、模型訓(xùn)練偏差,甚至系統(tǒng)崩潰,嚴(yán)重影響AI應(yīng)用的可靠性與效率。
憶聯(lián)作為國(guó)內(nèi)唯一高分通過中子輻照測(cè)試的SSD廠商,聯(lián)合國(guó)內(nèi)知名機(jī)構(gòu)中國(guó)散裂中子源在遠(yuǎn)超地表中子輻射量的模擬環(huán)境下,實(shí)測(cè)PCIe Gen5 ESSD UH812a的高可靠性,以期為AI時(shí)代提供更安全高效的存儲(chǔ)解決方案。
1.2驗(yàn)證平臺(tái)
中國(guó)散裂中子源是國(guó)際前沿的高科技多學(xué)科應(yīng)用的大型研究平臺(tái),依托中國(guó)散裂中子源建成的大氣中子輻照譜儀是國(guó)內(nèi)首臺(tái)、國(guó)際先進(jìn)的大氣中子地面模擬加速測(cè)試平臺(tái),可為航空、電力電子、智能駕駛、高性能存儲(chǔ)與計(jì)算等領(lǐng)域的高可靠性的電子元器件及系統(tǒng)提供大氣中子單粒子效應(yīng)風(fēng)險(xiǎn)評(píng)估和測(cè)試服務(wù)。
1.3測(cè)試產(chǎn)品
本次試驗(yàn)選取憶聯(lián)PCIe Gen5 ESSD UH812a及國(guó)際友商A、國(guó)內(nèi)友商B的同代際產(chǎn)品進(jìn)行測(cè)試,所有SSD均在相同的中子注量率下持續(xù)輻照,直至盤片全部失效。
1.4測(cè)試環(huán)境
本次測(cè)試使用的中子注量率為9.6*104n/ (cm2·s) (En≥1MeV)。在國(guó)內(nèi)地面條件下,阿里地區(qū)作為中子量最多的地區(qū)之一,其中子注量率僅為5.09*102n (cm2 ·h) (En≥1MeV)。由此可見,在模擬宇宙射線峰值環(huán)境(中子注量率達(dá)阿里地面條件的68萬倍)的極限測(cè)試中,憶聯(lián)UH812a SSD仍能保持優(yōu)秀的穩(wěn)定性和可靠性,可護(hù)航千卡GPU集群完成百億參數(shù)大模型訓(xùn)練,開創(chuàng)存儲(chǔ)設(shè)備抗輻射性能新高度。
圖1:中子試驗(yàn)環(huán)境實(shí)拍
2.測(cè)試關(guān)鍵結(jié)果
2.1在嚴(yán)苛模擬工作負(fù)載環(huán)境下,憶聯(lián)UH812a SSD正常運(yùn)行時(shí)長(zhǎng)遠(yuǎn)超友商
圖2:憶聯(lián)與友商同類產(chǎn)品實(shí)測(cè)對(duì)比
基準(zhǔn)值232s是在高中子環(huán)境下SSD的使用壽命,等于在常規(guī)環(huán)境下SSD的5年使用壽命。在高中子環(huán)境下,SSD實(shí)際運(yùn)行時(shí)間(實(shí)測(cè)值)比基準(zhǔn)值越長(zhǎng),則說明其可靠性及數(shù)據(jù)保護(hù)能力越強(qiáng)。在本次測(cè)試中,憶聯(lián)UH812a實(shí)際運(yùn)行時(shí)間為416秒,比國(guó)內(nèi)友商B的同類產(chǎn)品運(yùn)行時(shí)間長(zhǎng)約60%,比國(guó)際友商A的同類產(chǎn)品運(yùn)行時(shí)間長(zhǎng)約400%。在模擬環(huán)境的中子注量率下,為達(dá)到5年使用壽命,SSD正常運(yùn)行時(shí)間需達(dá)到232秒,而憶聯(lián)UH812a平均運(yùn)行時(shí)長(zhǎng)高出5年使用壽命等效時(shí)長(zhǎng)79%,可明顯滿足用戶在高中子環(huán)境下對(duì)SSD耐用性和可靠性的使用需求。
2.2在高中子注量環(huán)境下,憶聯(lián)UH812a SSD平均每小時(shí)故障率遠(yuǎn)低于上一代產(chǎn)品
平均每小時(shí)故障率指SSD在單位時(shí)間(每小時(shí))內(nèi)發(fā)生故障的概率,反映了SSD在運(yùn)行過程中出現(xiàn)故障的頻率,該指標(biāo)越低則說明SSD的可靠性越高。
圖3:UH812a與上一代產(chǎn)品及友商平均每小時(shí)故障率對(duì)比
在高中子注量率的測(cè)試環(huán)境下,通過實(shí)測(cè)UH812a與上一代產(chǎn)品的故障率,可明顯發(fā)現(xiàn)UH812a的故障率不僅低于上一代產(chǎn)品,同時(shí)也遠(yuǎn)低于友商同代際產(chǎn)品。UH812a的單個(gè)硬盤平均每小時(shí)故障率為3.22E-06,上一代際產(chǎn)品單個(gè)硬盤平均每小時(shí)故障率為4.18E-06,而友商Gen5代際產(chǎn)品平均每小時(shí)故障概率為6.95E-06。這說明在正常使用情況下,不管是跟友商對(duì)比,還是跟上一代產(chǎn)品對(duì)比,UH812a出現(xiàn)故障的可能性更小,更能夠?yàn)橛脩籼峁└€(wěn)定、持久的存儲(chǔ)服務(wù),有效保障數(shù)據(jù)的安全和業(yè)務(wù)的連續(xù)性。
3.憶聯(lián)UH812a SSD采用多重?cái)?shù)據(jù)保護(hù)技術(shù),為AI應(yīng)用的數(shù)據(jù)安全保駕護(hù)航
憶聯(lián)UH812a除具備優(yōu)秀的硬件配置外,還采用了增強(qiáng)的LDPC糾錯(cuò)算法、智能錯(cuò)誤檢測(cè)與糾正(ECC)模式及不可糾正錯(cuò)誤(UNC)保護(hù)模式,為用戶牢筑AI數(shù)據(jù)安全防線。
? LDPC糾錯(cuò)算法:可提供比Flash顆粒要求更高的糾錯(cuò)能力,能夠精準(zhǔn)識(shí)別并修正數(shù)據(jù)傳輸與存儲(chǔ)過程中出現(xiàn)的各類錯(cuò)誤,實(shí)現(xiàn)小于1E-18的UBER(不可修復(fù)錯(cuò)誤比特率)。
? ECC模式:能夠?qū)崟r(shí)監(jiān)測(cè)存儲(chǔ)數(shù)據(jù)狀態(tài),快速定位并糾正因中子輻射引發(fā)的比特翻轉(zhuǎn)錯(cuò)誤,有效保障數(shù)據(jù)讀寫的準(zhǔn)確性。
? UNC保護(hù)模式:憑借智能錯(cuò)誤識(shí)別與快速隔離技術(shù),在面對(duì)不可糾正錯(cuò)誤時(shí),通過隔離錯(cuò)誤區(qū)域防止數(shù)據(jù)進(jìn)一步損壞和丟失,全方位保障系統(tǒng)穩(wěn)定運(yùn)行與業(yè)務(wù)連續(xù)性。
圖4:憶聯(lián)UH812a亮點(diǎn)介紹
UH812a作為憶聯(lián)強(qiáng)勢(shì)推出的重量級(jí)PCIe Gen5 ESSD之一,其采用的多重?cái)?shù)據(jù)保護(hù)技術(shù),在面對(duì)中子輻射的威脅時(shí),可最大限度降低數(shù)據(jù)丟失風(fēng)險(xiǎn),以全場(chǎng)景、全周期的數(shù)據(jù)防護(hù)策略,為大模型訓(xùn)練、智能決策等AI業(yè)務(wù)構(gòu)筑堅(jiān)不可摧的存儲(chǔ)安全屏障。
4.中子輻射環(huán)境下的數(shù)據(jù)保障方案,筑牢安全與效率雙保險(xiǎn),有效降低用戶TCO
受政策、自然環(huán)境等因素的影響,數(shù)據(jù)中心紛紛落戶高海拔地區(qū)。數(shù)據(jù)中心作為AI發(fā)展的基礎(chǔ)支撐,不僅可以提供海量存儲(chǔ)空間,也為AI模型訓(xùn)練和推理提供強(qiáng)大計(jì)算力,加速模型訓(xùn)練過程。在高海拔環(huán)境下,數(shù)據(jù)中心及AI應(yīng)用極有可能受到中子影響,導(dǎo)致數(shù)據(jù)錯(cuò)誤,引發(fā)模型訓(xùn)練偏差、分析結(jié)果失真等,造成人力、物力與時(shí)間成本的浪費(fèi),增加運(yùn)營(yíng)成本。
對(duì)于用戶而言,在高海拔的數(shù)據(jù)中心采用通過大氣中子測(cè)試的ESSD意味著為數(shù)據(jù)安全與業(yè)務(wù)效率雙重賦能。憶聯(lián)UH812a憑借出色的數(shù)據(jù)保護(hù)能力,能夠有效降低SSD失效率,確保企業(yè)的智能決策系統(tǒng)、智能客服等AI應(yīng)用穩(wěn)定運(yùn)行,保障數(shù)據(jù)的真實(shí)性與完整性,減少運(yùn)維成本及人力,有效降低用戶TCO。
在AI驅(qū)動(dòng)的智能時(shí)代,選擇經(jīng)過嚴(yán)苛大氣中子測(cè)試的憶聯(lián)UH8系列SSD,就是選擇更穩(wěn)定的系統(tǒng)運(yùn)行、更精準(zhǔn)的數(shù)據(jù)分析、更高效的業(yè)務(wù)推進(jìn)與更低的運(yùn)維成本,為企業(yè)數(shù)字化轉(zhuǎn)型與技術(shù)創(chuàng)新筑牢可靠根基。
未來,憶聯(lián)將繼續(xù)深耕AI存儲(chǔ)技術(shù)領(lǐng)域,持續(xù)創(chuàng)新,不斷優(yōu)化產(chǎn)品性能,為AI時(shí)代的數(shù)據(jù)存儲(chǔ)需求提供更安全、更高效、更可靠的解決方案,與客戶攜手共筑智能時(shí)代的數(shù)據(jù)基石。
注:本文的所有測(cè)試數(shù)據(jù)均基于中國(guó)散裂中子源大氣中子輻照譜儀輻射環(huán)境下的實(shí)測(cè)數(shù)據(jù),測(cè)試對(duì)象包含憶聯(lián)SSD及主要國(guó)內(nèi)外友商的同代際產(chǎn)品,相關(guān)數(shù)據(jù)僅供參考。
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!