(相關(guān)資料圖)
不光能讀懂文字、圖像,還能理解音頻、視頻,甚至3D模型、傳感信號,思考起來更像“真人”。6月16日,在“人工智能框架生態(tài)峰會2023”上,中國科學(xué)院自動化研究所所長徐波發(fā)布了“紫東太初”全模態(tài)大模型。作為升級后的2.0版本,它不僅實現(xiàn)能力提升,還做到全鏈條“中國造”,打造出全棧國產(chǎn)化的通用人工智能底座。
何謂全模態(tài)大模型?“人的學(xué)習(xí)受到現(xiàn)實世界中視覺、聽覺、觸覺、嗅覺等各種信號的綜合影響,這些信號每一類都是一種模態(tài),人類的學(xué)習(xí)過程是全模態(tài)的。但目前最常見的大語言模型仍以文字、圖片為主要模態(tài),對音頻、視頻等信息的識別能力不足?!敝锌圃鹤詣踊蠔|太初大模型研究中心常務(wù)副主任王金橋介紹,在“紫東太初”誕生之初,科研團(tuán)隊就提出要像養(yǎng)育嬰兒一樣,為它營造全模態(tài)的學(xué)習(xí)環(huán)境。
早在2021年7月,全球首個千億參數(shù)的多模態(tài)大模型“紫東太初”1.0就已發(fā)布,實現(xiàn)圖像、文本、語音三類數(shù)據(jù)的相互生成。而歷經(jīng)近2年的迭代,“紫東太初”2.0的能力再升級,除了讀懂圖文外,它還能“看懂”來自現(xiàn)實世界的影像數(shù)據(jù)、力觸覺、工業(yè)傳感信號等物聯(lián)數(shù)據(jù),可以像“人”一樣綜合運用多種信號進(jìn)行思考。
給出一張救護(hù)車圖片、一段森林救火的視頻和一段警笛音頻,“紫東太初”能識別并講述出一段完整的救援過程;而將一張圖書館的照片和汽車鳴笛聲音頻同時輸入,它則快速發(fā)現(xiàn)了其中的矛盾,認(rèn)為這段音頻不太可能出現(xiàn)在圖書館場景之中。
在同樣的參數(shù)量級中,多模態(tài)大模型的能力會強于純粹的語言大模型,這意味著“紫東太初”可以用更少的訓(xùn)練數(shù)據(jù)實現(xiàn)更優(yōu)的效果。“其實這也很好理解,多種信息的綜合輸入,能夠降低認(rèn)知成本,但這對科研的挑戰(zhàn)更大?!蓖踅饦蛘f,得益于團(tuán)隊在多模態(tài)數(shù)據(jù)領(lǐng)域的多年積累,科研人員以語義為橋梁,將音頻、視頻、物聯(lián)數(shù)據(jù)等模態(tài)聯(lián)系起來,“在這條研發(fā)路徑上,我們走在了世界前列。”
“從算法到硬件、算力,‘紫東太初’都是‘中國造’?!蓖踅饦虮硎?,大模型算法為中科院自動化所自研,以昇騰AI硬件及昇思MindSpore AI框架為基礎(chǔ),算力則由武漢人工智能計算中心提供支持,“在國產(chǎn)軟硬件的支撐下,我們的大模型一樣能跑得很好、很快?!?/p>
大模型所掌握的數(shù)據(jù)種類越多,與真實世界的交互能力就越強,在不遠(yuǎn)的將來,多模態(tài)大模型將普惠千行百業(yè)。目前,“紫東太初”大模型已在法律咨詢、交通出行、醫(yī)療健康等領(lǐng)域開始引領(lǐng)性示范。例如,通過部署“紫東太初”,中科院自動化所自研的微創(chuàng)柔性手術(shù)機器人MicroNeuro擁有了融合觸覺與視覺的跨模態(tài)分析能力,它已完成國際首例深位顱內(nèi)活檢手術(shù),并有望隨著大模型升級擁有對神經(jīng)外科手術(shù)場景的自主理解。
“紫東太初”還開放了服務(wù)平臺,支持各行業(yè)根據(jù)各自需求“組裝”模塊,再輸入少量的行業(yè)樣本數(shù)據(jù),就能產(chǎn)出自主可控的行業(yè)相關(guān)大模型。徐波表示,未來3至5年,包括“紫東太初”在內(nèi)的我國大模型技術(shù),將在促進(jìn)數(shù)字經(jīng)濟(jì)發(fā)展方面發(fā)揮重要作用,進(jìn)一步釋放、提升各行業(yè)的勞動生產(chǎn)率。
流程編輯:U022
標(biāo)簽: