在日前舉辦的OCP ChinaDay大會上,業(yè)界首個面向AIGC(生成式人工智能)的《開放加速規(guī)范AI服務(wù)器設(shè)計指南》(以下簡稱指南)正式發(fā)布。
浪潮信息服務(wù)器產(chǎn)品線總經(jīng)理趙帥介紹,該指南面向AIGC實際應(yīng)用場景,細化完善了開放加速規(guī)范AI服務(wù)器的設(shè)計理論和方法,明確了硬件設(shè)計參考、管理接口規(guī)范和性能測試標準等,將為新興的AI芯片創(chuàng)新提供有力的系統(tǒng)平臺支撐,幫助AI芯片企業(yè)縮短研發(fā)和系統(tǒng)適配周期,大大減少開發(fā)費用,更快釋放算力價值,有效加速多元算力產(chǎn)業(yè)發(fā)展,助力AIGC時代的AI計算產(chǎn)業(yè)跨越“創(chuàng)新”鴻溝。
加速開放計算產(chǎn)業(yè)發(fā)展,系統(tǒng)級產(chǎn)品創(chuàng)新是關(guān)鍵。在基礎(chǔ)硬件、基礎(chǔ)軟件、核心應(yīng)用、上層生態(tài)間建立起統(tǒng)一的技術(shù)路線及標準API接口,將加速器模塊標準化,簡化人工智能基礎(chǔ)架構(gòu)設(shè)計,能夠有效縮短硬件開發(fā)和產(chǎn)業(yè)賦能周期。
(資料圖片僅供參考)
當前,以大模型為代表的AIGC熱潮帶來了AI算力需求的爆發(fā)式增長。更豐富的算力資源成為人工智能競爭的核心基石??梢哉f,計算力就是生產(chǎn)力,智算力就是創(chuàng)新力。IDC預(yù)計,全球 AI計算市場規(guī)模將從2022年的195億美元增長到2026年的346.6億美 元,其中生成式AI計算市場規(guī)模將從 2022年的8.2億美元增長到2026年的 109.9億美元。生成式AI計算占整體 AI計算市場的比例將從4.2%增長到 31.7%。
AIGC技術(shù)創(chuàng)新是一項復(fù)雜的系統(tǒng)工程,需要基于海量數(shù)據(jù)集,在擁有成百上千加速卡的AI服務(wù)器集群上對千億級參數(shù)的AI大模型進行分布式訓(xùn)練,這對算力資源的規(guī)模提出了極高的要求,也對算力系統(tǒng)設(shè)計帶來了新的挑戰(zhàn),要求單機具有更高的擴展性、集群具有更高的加速比,由此對卡間互聯(lián)、網(wǎng)絡(luò)帶寬和延遲提出了更高的要求。
隨著AI大模型、超大模型的不斷發(fā)展,芯片公司相繼推出了新形態(tài)的AI加速卡來支持更高的功耗和更強大的卡間互聯(lián)能力。當前,隨著數(shù)據(jù)中心用戶對AI計算力需求的不斷攀升,全球已有上百家公司投入新型AI芯片的研發(fā)與設(shè)計,人工智能芯片發(fā)展呈現(xiàn)多元化趨勢。但各廠商采用不同技術(shù)路線,導(dǎo)致產(chǎn)業(yè)面臨硬件體系孤島和生態(tài)割裂問題,帶來算力產(chǎn)業(yè)發(fā)展高成本和低靈活性的問題。
“統(tǒng)一開放的產(chǎn)業(yè)標準能有效降低技術(shù)獲取成本,推動創(chuàng)新技術(shù)普及,為產(chǎn)業(yè)發(fā)展賦能提速?!崩顺毙畔I&HPC產(chǎn)品線高級產(chǎn)品經(jīng)理張政說。
據(jù)了解,以O(shè)CP為代表的開放計算項目,推出全新的、全球化的產(chǎn)業(yè)協(xié)作模式,通過消除技術(shù)壁壘,加快計算產(chǎn)業(yè)創(chuàng)新的速度。其中,OCP的OAI(開放加速器基礎(chǔ)設(shè)施)開放標準極大地激發(fā)了AI計算基礎(chǔ)設(shè)施集成的創(chuàng)新。目前,已有包括浪潮信息、Intel、燧原科技等10+系統(tǒng)和芯片廠商,通過開放、合作為市場推出10余款符合OAM標準的開放加速AI服務(wù)器,并在全球范圍內(nèi)開展成功實踐,充分論證了技術(shù)可行性,構(gòu)建起茁壯的生態(tài)體系。
張政介紹,早在2019年OCP剛成立OAI小組時,浪潮信息作為主導(dǎo)的核心成員之一,牽頭組織制定了UBB、OAM(云原生應(yīng)用)等規(guī)范,此后又發(fā)布了業(yè)界首個開放加速參考系統(tǒng)MX1。浪潮信息還協(xié)同合作伙伴,共同完成了早期OAM的技術(shù)驗證和積累,并發(fā)布了首款OAM服務(wù)器,將開放加速真正快速投入到產(chǎn)業(yè)應(yīng)用中。在產(chǎn)業(yè)化落地的過程中,浪潮信息積累了很多經(jīng)驗,并總結(jié)轉(zhuǎn)化從而形成《開放加速規(guī)范AI服務(wù)器設(shè)計指南》,以加速培育產(chǎn)業(yè)生態(tài)。
“事實上,我們也是國內(nèi)最早做AI加速卡間高速互連技術(shù)的企業(yè),對于如何構(gòu)建大規(guī)模的訓(xùn)練系統(tǒng)、如何加速AI模型訓(xùn)練,我們有豐富的經(jīng)驗。浪潮信息AI服務(wù)器在市場規(guī)模和技術(shù)方面都有著領(lǐng)先的優(yōu)勢。”趙帥說。
據(jù)了解,開放加速計算的硬件架構(gòu)正是為超大規(guī)模深度神經(jīng)網(wǎng)絡(luò)模型并行計算而生,天然適用于AIGC大模型訓(xùn)練。然而,當前開放計算技術(shù)推向產(chǎn)業(yè)落地的過程中,依然存在大量的定制化工作以及現(xiàn)有OAI標準未能完全覆蓋的領(lǐng)域。因此,浪潮信息基于豐富的開放加速計算工程實踐和產(chǎn)品歷程,發(fā)布面向AIGC的指南,提出四大設(shè)計原則、全棧設(shè)計方法,旨在幫助社區(qū)成員更快更好地開發(fā)符合開放加速規(guī)范的AI加速卡,并大幅縮短與AI服務(wù)器的適配周期,為用戶提供最佳匹配應(yīng)用場景的AI算力產(chǎn)品方案。
其中,四大設(shè)計原則為應(yīng)用導(dǎo)向原則、多元開放原則、綠色高效原則和統(tǒng)籌設(shè)計原則?;谏鲜鲈O(shè)計原則,以提高適配部署效率、提高系統(tǒng)穩(wěn)定性、提高系統(tǒng)可用性為目標,《指南》進一步歸納總結(jié)出開放加速規(guī)范AI服務(wù)器的設(shè)計方法,即多維協(xié)同設(shè)計、全面系統(tǒng)測試、性能測評調(diào)優(yōu)。
業(yè)內(nèi)人士認為,開放加速規(guī)范的AI服務(wù)器可為AI芯片創(chuàng)新提供成熟的系統(tǒng)平臺支撐,幫助AI芯片廠商聚焦于芯片創(chuàng)新研發(fā),實現(xiàn)更科學(xué)合理的產(chǎn)業(yè)分工,避免封閉技術(shù)生態(tài)存在的單點單線風(fēng)險,推動智算產(chǎn)業(yè)生態(tài)健康發(fā)展;另一方面,基于開放加速工程實踐和成熟計算平臺總結(jié)的設(shè)計指南,可加速有競爭力的AI芯片的創(chuàng)新研發(fā)和落地部署,有效節(jié)省研發(fā)投入并縮短開發(fā)適配周期50%以上,為用戶提供可以用來支撐AIGC大模型訓(xùn)練的多元算力解決方案,以多元算力之道破解當下AI算力供需難題。(經(jīng)濟日報記者 黃鑫)
標簽: