工控網(wǎng)首頁
>

新聞中心

>

業(yè)界動態(tài)

>

北電數(shù)智優(yōu)化算力資源配置,提升算力中心利用率

北電數(shù)智優(yōu)化算力資源配置,提升算力中心利用率

2025/2/10 13:05:13

近年來,全國范圍的算力基礎(chǔ)設(shè)施建設(shè)如火如荼地進行中,除了北京、上海、深圳等一線城市,各個縣域級地區(qū)也在積極加速布局。但由于性能不足、無法滿足AI大模型時代的特點場景算力需求、數(shù)據(jù)中心和當(dāng)?shù)禺a(chǎn)業(yè)需求不匹配等問題,算力中心的整體利用率僅有50%左右、閑置率較高,僅以算力規(guī)模、集群規(guī)模來衡量算力性能,顯然已無法適應(yīng)數(shù)字經(jīng)濟快速發(fā)展的需求。

北京電子數(shù)智科技有限責(zé)任公司(以下簡稱“北電數(shù)智”)提出了“算力最優(yōu)解”理念,并基于人工智能行業(yè)的發(fā)展與算力需求的迭代,進一步細化算力評價標(biāo)準(zhǔn)。北電數(shù)智認(rèn)為“算力最優(yōu)解”需要做到“三加一保障”,即加速單芯片算力,加強混元異構(gòu)集群性能,加大通信能力,保障智算集群訓(xùn)練安全、穩(wěn)定運行。

北電數(shù)智是?家專注于原創(chuàng)性、顛覆性、引領(lǐng)性科技創(chuàng)新的人工智能科技企業(yè),在算力、算法和數(shù)據(jù)等方面實現(xiàn)了全棧產(chǎn)品和解決方案布局,并于2024年5月,獲得甲子光年“AI算力層創(chuàng)新企業(yè)獎”。

QQ20250210-130655.png

加速單芯片計算能力,真正實現(xiàn)“好用”

目前國產(chǎn)GPU的算力性能并不低,但大部分客戶反饋國產(chǎn)芯片仍然不夠“好用”。這是因為目前國內(nèi)已生產(chǎn)和應(yīng)用的GPU產(chǎn)品主要是針對上一代算法而設(shè)計,在滿足AI大模型相關(guān)算子的需求層面仍需進一步提升,需要通過豐富算子庫、編譯器等軟件方式,對單芯片的算力進行加速。北電數(shù)智前進·AI異構(gòu)計算平臺具有多重優(yōu)化功能,能夠通過模型量化加速、模型超參數(shù)調(diào)優(yōu)、稀疏化推理等模型優(yōu)化能力,算子融合加速、計算圖優(yōu)化、硬件訪存優(yōu)化等編譯優(yōu)化方式,加速單芯片的計算能力,增加國產(chǎn)算力芯片的自適應(yīng)能力。

多芯片混元異構(gòu)或成主流,讓合適的芯片做合適的事

現(xiàn)階段,智算中心多以單一芯片廠商為算力主要供應(yīng),算力供給不足的問題不可避免。混元異構(gòu)能解決單一芯片廠商產(chǎn)能供給不足的困境,同時能提供更高性價比的算力解決方案。不同芯片由于架構(gòu)設(shè)計不同,天然適用于不同的訓(xùn)練推理任務(wù),如果可以針對不同的任務(wù)配置對應(yīng)芯片,整體算力解決方案的性價比將大大提升。然而,異構(gòu)合池訓(xùn)練會存在精度誤差、同步等問題。系統(tǒng)需要在算力不均勻情況下,根據(jù)模型特征、負(fù)載實時狀態(tài)、集群硬件特點對任務(wù)進行均勻或非均勻的切分。

北電數(shù)智前進·AI異構(gòu)計算平臺可通過算子級模型拆分方法優(yōu)化模型性能;通過基于自動機器學(xué)習(xí)算法的硬件感知自動調(diào)優(yōu)的方式,自動調(diào)整模型的配置和參數(shù),找到在特定芯片下的最佳性能和效果;其框架可支持AI大模型分布到多GPU上進行計算,提高模型的訓(xùn)練和推理效率,確保每種芯片都能承擔(dān)與其算力相匹配的任務(wù)。

QQ20250210-130724.png

打通集合通信庫解決通信問題,提升AI大模型訓(xùn)練性能

在萬卡集群時代,通信能力直接制約著AI大模型訓(xùn)練時的數(shù)據(jù)傳輸效率。高效、穩(wěn)定、低延遲的網(wǎng)絡(luò)對于智算中心的建設(shè)和運行意義重大。在硬件層面,NVLink、HCCS互聯(lián)等方式可以有效提高卡間互聯(lián)通信能力;在協(xié)議層面,通過RDMA降低多機端到端的通信時延,提高節(jié)點間傳輸速率,有效改善智算集群的通信效率。此外,在軟件層面,集合通信庫控制著各GPU、各服務(wù)器之間的數(shù)據(jù)通信,異構(gòu)卡的通信庫差異會為異構(gòu)卡之間帶來通信難題。北電數(shù)智通過打通各廠家的集合通信庫來解決不同GPU芯片之間的通信問題,對通信庫進行深度適配和優(yōu)化,通過標(biāo)準(zhǔn)化的分布式通信接口確保異構(gòu)集群內(nèi)的信息交換;并且通過時間重疊等策略,將計算過程和通信過程互相重疊,減少通信延遲對整體訓(xùn)練性能的影響。

廣泛納管,保證算力集群穩(wěn)定運行

萬卡集群有較多的硬件種類和數(shù)量,每一顆元器件都有硬件失效率,每個硬件的失效都會影響到整體智算集群訓(xùn)練。想要實現(xiàn)算力最優(yōu)解,就需要一個高效可靠的智能云管平臺,提供實時智能監(jiān)控來實現(xiàn)分鐘級的軟硬件故障定位,并實現(xiàn)故障的自動檢測和修復(fù)。北電數(shù)智前進·AI異構(gòu)計算平臺支持多款國產(chǎn)芯片的廣泛納管,幫助用戶實現(xiàn)對不同品牌、類型AI加速卡的統(tǒng)一管理,以確保各類AI芯片的無縫集成和優(yōu)化利用。廣泛的納管能力也讓用戶能夠根據(jù)具體需求,靈活地調(diào)整資源配置,優(yōu)化算力供給滿足各類訓(xùn)練推理任務(wù)。

“三加一保障”是北電數(shù)智在AI大模型滲透千行百業(yè)的當(dāng)下提出的算力最優(yōu)解方案,不僅可以優(yōu)化算力的配置、提升算力資源的利用率,還為企業(yè)走向智能化、AI化提供了實現(xiàn)路徑。值得一提的是,2024年8月21日,“前進·AI異構(gòu)計算平臺”還入選了北京首批“人工智能+”應(yīng)用場景案例,標(biāo)志著項目在應(yīng)用落地方面又邁出了堅實的一步。未來,北電數(shù)智也將繼續(xù)為各行業(yè)提供成本低、高性能、穩(wěn)定的算力供應(yīng),為數(shù)字中國的建設(shè)貢獻力量。

更多精彩內(nèi)容,可關(guān)注“北電數(shù)智AI江湖”?程序。


審核編輯(
黃莉
)
投訴建議

提交

查看更多評論
其他資訊

查看更多

重塑靜脈產(chǎn)業(yè)——電裝助力循環(huán)型社會建設(shè)

InterSystems攜手上海輿道挖掘數(shù)據(jù)價值,賦能制造業(yè)數(shù)智升級

同登泰山之巔,共話數(shù)字之勢丨3月12日共商冶金企業(yè)采購供應(yīng)鏈數(shù)字化建設(shè)之路

佰維存儲數(shù)通行業(yè)SSD方案榮登信息通信業(yè)高質(zhì)量發(fā)展硬核力量榜單

第六屆全國醫(yī)藥大健康CIO大會即將召開