當(dāng)前位置:首頁 >  科技 >  IT業(yè)界 >  正文

憶聯(lián)UH812a以MLPerf Storage標(biāo)桿級驗證,重塑AI存儲效能,奠定智能算力基石

 2026-02-06 16:00  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  阿里云優(yōu)惠券 先領(lǐng)券再下單

隨著AI大模型進(jìn)入萬億參數(shù)時代,傳統(tǒng)存儲性能測試已難以真實反映存儲系統(tǒng)在實際訓(xùn)練場景中對成本與效率的核心影響。為此,全球權(quán)威AI基準(zhǔn)測評組織MLCommons正式推出MLPerf Storage基準(zhǔn)測試套件,為行業(yè)建立起一套貼合實際、具有指導(dǎo)意義的權(quán)威評估框架。

區(qū)別于傳統(tǒng)存儲性能測試,MLPerf Storage基準(zhǔn)的核心價值在于直接評估存儲系統(tǒng)能否支撐GPU集群達(dá)到并維持高利用率——這直接決定了整體訓(xùn)練耗時與算力資源成本。該基準(zhǔn)在v2.0版本中進(jìn)一步引入Checkpoint工作負(fù)載,精準(zhǔn)模擬大模型訓(xùn)練中的容災(zāi)恢復(fù)環(huán)節(jié),使評測更貼近前沿場景的實際需求。

為評估憶聯(lián)Gen5 eSSD UH812a在AI場景中的性能表現(xiàn),本次測試基于MLPerf Storage v2.0默認(rèn)參數(shù)展開,并特別針對對數(shù)據(jù)供給要求更高的NVIDIA H100加速器進(jìn)行模擬驗證,以檢驗存儲系統(tǒng)能否充分適配新一代算力平臺的性能需求。此次測試覆蓋了MLPerf Storage v2.0包含的全部訓(xùn)練負(fù)載,包括U-Net 3D、ResNet50、CosmoFlow和Checkpoint。

結(jié)果顯示,在四項訓(xùn)練模型中,UH812a的 GPU利用率均超過基準(zhǔn)要求,表現(xiàn)出強(qiáng)勁的性能;同時在可支持的加速器數(shù)量上亦領(lǐng)先于行業(yè)同類產(chǎn)品,有力驗證了其在高負(fù)載AI訓(xùn)練場景下可提供穩(wěn)定且高性能的存儲支持。

測試環(huán)境

部件

配置信息

CPU

Intel(R) Xeon(R) Gold 6430  CPU @ 2.1GHz*2

內(nèi)存

512 GB

存儲

系統(tǒng)盤:Union Memory SATA 2*480 GB

數(shù)據(jù)盤:Union Memory UH812a 7.68 TB

Linux內(nèi)核版本

Linux 6.17.4-1.el8.elrepo.x86_64

性能測試軟件

MLPerf Storage v2.0

測試結(jié)果

U-Net 3D訓(xùn)練場景

該場景模擬醫(yī)療影像等大體積3D數(shù)據(jù)的訓(xùn)練過程,要求存儲系統(tǒng)持續(xù)為多個并發(fā)GPU客戶端提供大型數(shù)據(jù)文件(單個約146MB),旨在測試存儲的極限順序讀寫帶寬,確保GPU不會因數(shù)據(jù)供給不足而出現(xiàn)空閑等待。

在U-Net3D場景負(fù)載下,我們共計訓(xùn)練了42000個文件,模擬了1到5顆GPU的訓(xùn)練過程。如圖1所示,UH812a在模擬5顆H100 GPU的負(fù)載下,實現(xiàn)了14566.46 MB/s的最高吞吐量,接近標(biāo)稱讀帶寬(14900 MB/s),此時GPU利用率(AU)達(dá)到最低96%,遠(yuǎn)高于基準(zhǔn)所要求的90%以上水平。通過圖1也可看見,UH812a的性能隨著GPU數(shù)量增加而線性提升,且GPU利用率僅出現(xiàn)微弱波動,證明其在多客戶端高并發(fā)訪問場景下仍能持續(xù)提供穩(wěn)定、高帶寬的數(shù)據(jù)流。

圖1:UH812a在不同數(shù)量H100環(huán)境下的性能測試結(jié)果

此外,在該場景測試中,UH812a可支持高達(dá)5顆H100加速器,優(yōu)于對比競品(僅支持4顆),凸顯了其在大體積3D數(shù)據(jù)訓(xùn)練負(fù)載下更強(qiáng)的并發(fā)處理能力與性能優(yōu)勢。

圖2:UH812a與競品可支持的H100數(shù)量對比

ResNet50訓(xùn)練場景

此場景模擬常規(guī)圖像分類模型的訓(xùn)練流程,要求存儲系統(tǒng)能夠應(yīng)對海量GPU客戶端的高并發(fā)、隨機(jī)讀取需求,處理大量小型圖片文件(每個約150KB),從而充分考驗存儲系統(tǒng)的高IOPS和低延遲元數(shù)據(jù)處理能力。

在ResNet-50場景測試中,我們共計訓(xùn)練了19163個文件,模擬了10至78顆GPU的訓(xùn)練過程。如圖3所示,在模擬78顆H100 GPU的負(fù)載下,UH812a實現(xiàn)了14008.66 MB/s的最大吞吐量,GPU利用率穩(wěn)定在92.2%,同樣超過基準(zhǔn)要求(AU> 90%),體現(xiàn)出其能夠為復(fù)雜訓(xùn)練任務(wù)持續(xù)提供充足的存儲性能支持。

圖3:UH812a在不同數(shù)量H100環(huán)境下的性能測試結(jié)果

另外,在此場景測試中,UH812a可支持高達(dá)78顆H100加速器同時高效工作,顯著領(lǐng)先于競品(分別為65顆和64顆)。這一優(yōu)勢表明,UH812a具備支撐更大規(guī)模AI訓(xùn)練集群的潛力,能為極致擴(kuò)展的模型訓(xùn)練任務(wù)提供穩(wěn)定可靠的數(shù)據(jù)供給基礎(chǔ)。

圖4:UH812a與競品可支持的H100數(shù)量對比

CosmoFlow訓(xùn)練場景

該場景主要模擬氣候、宇宙學(xué)等科學(xué)計算中的大規(guī)模訓(xùn)練任務(wù),要求存儲系統(tǒng)能夠支持從8個到數(shù)千個客戶端的GPU集群擴(kuò)展,同時高效讀取海量中等尺寸文件(每個約2MB)。其核心挑戰(zhàn)在于存儲系統(tǒng)的可擴(kuò)展性與延遲穩(wěn)定性——任何局部的訪問延遲都可能拖慢整個分布式訓(xùn)練作業(yè),因此對存儲系統(tǒng)的并發(fā)處理與響應(yīng)一致性要求更高。

在CosmoFlow場景的實際驗證中,我們累計訓(xùn)練了971819個文本數(shù)據(jù),并模擬了1至26顆GPU的訓(xùn)練過程。如圖5所示,當(dāng)加速器數(shù)量達(dá)到23顆及以上時,UH812a的吞吐量穩(wěn)定維持在約14000MB/s,同時GPU利用率始終高于基準(zhǔn)要求(AU>70%),展現(xiàn)出卓越的系統(tǒng)可擴(kuò)展性與持續(xù)穩(wěn)定的高并發(fā)數(shù)據(jù)供給能力。

圖5:UH812a在不同數(shù)量H100環(huán)境下的性能測試結(jié)果

此外,在這一場景下,UH812a可支持26顆H100加速器,相比于競品(支持21顆和16顆),支持GPU數(shù)量更多,可為高負(fù)載場景提供穩(wěn)定可靠的存儲服務(wù)。

圖6:UH812a與競品可支持的H100數(shù)量對比

Checkpoint訓(xùn)練場景

此場景模擬大模型訓(xùn)練中保存和恢復(fù)訓(xùn)練狀態(tài)的關(guān)鍵操作,要求所有GPU同時將完整的模型狀態(tài)(參數(shù)、優(yōu)化器等,規(guī)??蛇_(dá)數(shù)TB)順序?qū)懭氪鎯?,再快速讀取。該過程是對存儲系統(tǒng)高并發(fā)順序讀寫帶寬的終極考驗,其性能直接決定了訓(xùn)練任務(wù)因中斷而損失的時間。

在Checkpoint場景的實測中,受限于時間等因素,我們以Llama3-8b模型進(jìn)行了寫入測試,圖7結(jié)果顯示,UH812a的帶寬達(dá)到13053.4 MB/s,較競品A提升24%,較競品B提升11%,可為用戶提供高性能的讀寫體驗。

圖7:Llama3-8b模型下UH812a與競品表現(xiàn)對比

MLPerf Storage v2.0的測試結(jié)果表明,UH812a能夠充分滿足前沿AI場景對存儲系統(tǒng)的嚴(yán)苛性能需求,尤其在數(shù)據(jù)供給能力和穩(wěn)定性方面展現(xiàn)出顯著優(yōu)勢,性能領(lǐng)先于業(yè)界同類產(chǎn)品。這不僅印證了其在加速AI工作負(fù)載方面的卓越能力,也體現(xiàn)了其作為智能算力底座關(guān)鍵一環(huán)的核心價值。

未來,憶聯(lián)將繼續(xù)聚焦AI存儲技術(shù)創(chuàng)新與產(chǎn)品研發(fā),致力于通過更高性能、更可靠的存儲解決方案,持續(xù)賦能智能算力基礎(chǔ)設(shè)施建設(shè),與產(chǎn)業(yè)伙伴共同推動人工智能技術(shù)的規(guī)?;涞嘏c持續(xù)演進(jìn)。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
憶聯(lián)

相關(guān)文章

熱門排行

信息推薦