天天報道:全鏈條中國造，思考起來更像人！紫東太初全模態(tài)大模型發(fā)布

來源：北晚在線時間：2023-06-17 00:05:02

(相關(guān)資料圖)

不光能讀懂文字、圖像，還能理解音頻、視頻，甚至3D模型、傳感信號，思考起來更像“真人”。6月16日，在“人工智能框架生態(tài)峰會2023”上，中國科學(xué)院自動化研究所所長徐波發(fā)布了“紫東太初”全模態(tài)大模型。作為升級后的2.0版本，它不僅實現(xiàn)能力提升，還做到全鏈條“中國造”，打造出全棧國產(chǎn)化的通用人工智能底座。

何謂全模態(tài)大模型？“人的學(xué)習(xí)受到現(xiàn)實世界中視覺、聽覺、觸覺、嗅覺等各種信號的綜合影響，這些信號每一類都是一種模態(tài)，人類的學(xué)習(xí)過程是全模態(tài)的。但目前最常見的大語言模型仍以文字、圖片為主要模態(tài)，對音頻、視頻等信息的識別能力不足?！敝锌圃鹤詣踊蠔|太初大模型研究中心常務(wù)副主任王金橋介紹，在“紫東太初”誕生之初，科研團(tuán)隊就提出要像養(yǎng)育嬰兒一樣，為它營造全模態(tài)的學(xué)習(xí)環(huán)境。

早在2021年7月，全球首個千億參數(shù)的多模態(tài)大模型“紫東太初”1.0就已發(fā)布，實現(xiàn)圖像、文本、語音三類數(shù)據(jù)的相互生成。而歷經(jīng)近2年的迭代，“紫東太初”2.0的能力再升級，除了讀懂圖文外，它還能“看懂”來自現(xiàn)實世界的影像數(shù)據(jù)、力觸覺、工業(yè)傳感信號等物聯(lián)數(shù)據(jù)，可以像“人”一樣綜合運用多種信號進(jìn)行思考。

給出一張救護(hù)車圖片、一段森林救火的視頻和一段警笛音頻，“紫東太初”能識別并講述出一段完整的救援過程；而將一張圖書館的照片和汽車鳴笛聲音頻同時輸入，它則快速發(fā)現(xiàn)了其中的矛盾，認(rèn)為這段音頻不太可能出現(xiàn)在圖書館場景之中。

在同樣的參數(shù)量級中，多模態(tài)大模型的能力會強于純粹的語言大模型，這意味著“紫東太初”可以用更少的訓(xùn)練數(shù)據(jù)實現(xiàn)更優(yōu)的效果。“其實這也很好理解，多種信息的綜合輸入，能夠降低認(rèn)知成本，但這對科研的挑戰(zhàn)更大?！蓖踅饦蛘f，得益于團(tuán)隊在多模態(tài)數(shù)據(jù)領(lǐng)域的多年積累，科研人員以語義為橋梁，將音頻、視頻、物聯(lián)數(shù)據(jù)等模態(tài)聯(lián)系起來，“在這條研發(fā)路徑上，我們走在了世界前列。”

“從算法到硬件、算力，‘紫東太初’都是‘中國造’?！蓖踅饦虮硎?，大模型算法為中科院自動化所自研，以昇騰AI硬件及昇思MindSpore AI框架為基礎(chǔ)，算力則由武漢人工智能計算中心提供支持，“在國產(chǎn)軟硬件的支撐下，我們的大模型一樣能跑得很好、很快?！?/p>

大模型所掌握的數(shù)據(jù)種類越多，與真實世界的交互能力就越強，在不遠(yuǎn)的將來，多模態(tài)大模型將普惠千行百業(yè)。目前，“紫東太初”大模型已在法律咨詢、交通出行、醫(yī)療健康等領(lǐng)域開始引領(lǐng)性示范。例如，通過部署“紫東太初”，中科院自動化所自研的微創(chuàng)柔性手術(shù)機器人MicroNeuro擁有了融合觸覺與視覺的跨模態(tài)分析能力，它已完成國際首例深位顱內(nèi)活檢手術(shù)，并有望隨著大模型升級擁有對神經(jīng)外科手術(shù)場景的自主理解。

“紫東太初”還開放了服務(wù)平臺，支持各行業(yè)根據(jù)各自需求“組裝”模塊，再輸入少量的行業(yè)樣本數(shù)據(jù)，就能產(chǎn)出自主可控的行業(yè)相關(guān)大模型。徐波表示，未來3至5年，包括“紫東太初”在內(nèi)的我國大模型技術(shù)，將在促進(jìn)數(shù)字經(jīng)濟(jì)發(fā)展方面發(fā)揮重要作用，進(jìn)一步釋放、提升各行業(yè)的勞動生產(chǎn)率。

流程編輯：U022

標(biāo)簽：

責(zé)任編輯：FD31

上一篇：今日快訊：語態(tài)是什么意思英語_語態(tài)是什么意思

下一篇：最后一頁