觀速訊丨大模型煉丹指南：信則靈，不信則妄

來(lái)源：虎嗅網(wǎng)時(shí)間：2023-04-28 08:24:25

來(lái)源｜遠(yuǎn)川研究所（ID：YuanChuanInstitution）

【資料圖】

作者｜陳彬，編輯｜戴老板

頭圖｜電影《銀翼殺手2049》

每一個(gè)大模型都是一臺(tái)昂貴的“碎鈔機(jī)”，這已經(jīng)成為各路AI觀察家們津津樂(lè)道的常識(shí)。

大模型訓(xùn)練成本有一個(gè)簡(jiǎn)單的比例：訓(xùn)練費(fèi)用跟參數(shù)量的平方成正比。比如OpenAI訓(xùn)練1750億參數(shù)的GPT-3費(fèi)用大概是1200萬(wàn)美元，訓(xùn)練5000億參數(shù)(業(yè)界預(yù)估)的GPT-4成本就飆升至1億美元。

成本大都來(lái)自GPU使用時(shí)長(zhǎng)。Meta訓(xùn)練650億個(gè)參數(shù)的LLaMA模型耗費(fèi)100萬(wàn)個(gè)GPU小時(shí)；HuggingFace（號(hào)稱(chēng)機(jī)器學(xué)習(xí)界的Github）訓(xùn)練Bloom模型耗費(fèi)了超過(guò)兩個(gè)半月的時(shí)間，使用的算力相當(dāng)于一臺(tái)裝有500 個(gè) GPU的超級(jí)計(jì)算機(jī)。

Google在訓(xùn)練5400億參數(shù)的PaLM模型時(shí)，在6144 塊 TPU v4 芯片上訓(xùn)練了 1200 小時(shí)，然后又在在 3072 塊 TPU v4 芯片上訓(xùn)練了336小時(shí)，總共消耗了2.56e24 FLOPs的算力，折合成Google云計(jì)算的報(bào)價(jià)，大概在900~1700 萬(wàn)美元左右。

但是……幾百上千萬(wàn)美金的訓(xùn)練費(fèi)用和幾億美金的硬件投入，相比AIGC開(kāi)啟的浪潮，真的算貴嗎？

微軟2022年的凈利潤(rùn)是727億美金，Google是600億美金，Meta則是230億美金，在OpenAI花費(fèi)460萬(wàn)美金訓(xùn)練GPT-3之前，這些巨頭都投入了幾十甚至上百億美金用來(lái)尋找所謂的“新方向”。

微軟迄今為止向OpenAI投入了100多億美金，這個(gè)數(shù)字看起來(lái)很多，但要知道微軟當(dāng)年收購(gòu)LinkedIn就花了262億美金，而在更早的時(shí)候收購(gòu)諾基亞手機(jī)業(yè)務(wù)花了71.7億美金，基本等于打了水漂。

Meta則花了更多“冤枉錢(qián)”來(lái)尋找第二曲線。2021年扎克伯格把Facebook的名字改成了“Meta”，投入巨資All in元宇宙，2022年元宇宙部門(mén)虧損137億美元。在ChatGPT問(wèn)世之前，Meta甚至一度準(zhǔn)備把2023年的20%預(yù)算投入到元宇宙中去。

Google對(duì)AI一向重視，不僅收購(gòu)了“前GPT時(shí)代”的明星DeepMind，還是Transformer這一革命性模型的提出者，但Google并沒(méi)有像OpenAI那樣孤注一擲地“死磕”大語(yǔ)言模型，而是在多個(gè)方向上“撒胡椒面”——總投入并不少，但效果加起來(lái)都不如一個(gè)ChatGPT。

拉開(kāi)視野來(lái)看，全球科技巨頭——包括國(guó)內(nèi)的大型互聯(lián)網(wǎng)企業(yè)在移動(dòng)互聯(lián)網(wǎng)滲透率見(jiàn)頂之后，展開(kāi)了慘烈的“存量博弈”，卷算法推薦、卷短視頻、卷Web3、卷本地生活……投入的資金遠(yuǎn)遠(yuǎn)超過(guò)OpenAI在ChatGPT誕生前燒掉的10億美金。

發(fā)現(xiàn)新大陸的費(fèi)用，跟舊大陸的內(nèi)耗向來(lái)不在一個(gè)數(shù)量級(jí)。歐洲人在哥倫布發(fā)現(xiàn)新大陸之前內(nèi)卷了1000年，而發(fā)現(xiàn)新大陸只花了西班牙王室投資的200萬(wàn)馬拉維迪（大約14000美元）——跟新大陸給世界帶來(lái)的變化相比，這點(diǎn)兒錢(qián)其實(shí)微不足道。

事實(shí)上，“資金”從來(lái)都不是啟動(dòng)本輪AI浪潮的核心因素。真正核心的因素是另外兩個(gè)字：信仰。

蠻力的神跡

ChatGPT走紅后，好事兒的媒體跑去采訪了Google旗下的DeepMind創(chuàng)始人Demis Hassabis。

被OpenAI搶去了所有風(fēng)頭的Hassabis言辭有點(diǎn)兒不客氣：“面對(duì)自然語(yǔ)言這一挑戰(zhàn)，ChatGPT的解決方案如此不優(yōu)雅——僅僅是更多的計(jì)算能力和數(shù)據(jù)的蠻力，我的研究靈魂對(duì)此倍感失望?！?/p>

Demis Hassabis和柯潔

這句話聽(tīng)起來(lái)很“酸”，然而他接著話鋒一轉(zhuǎn)：“但這的確是獲得最佳結(jié)果的方式，所以我們（的大模型）也以此為基礎(chǔ)?！币馑季褪请m然不太認(rèn)同，但OpenAI的“蠻力”真的很香，我們也不得不去學(xué)。

Hassabis身段靈活，但早期對(duì)“蠻力”這件事的態(tài)度，讓Google和OpenAI有了致命的分野。

2017年，谷歌在論文中公開(kāi)了革命性的Transformer模型，業(yè)界逐漸意識(shí)到這個(gè)模型對(duì)于構(gòu)建AGI（通用人工智能）的意義。然而，基于同樣的Transformer，谷歌與OpenAI卻走上了兩條不同的路。

OpenAI旗幟鮮明地從Transformer構(gòu)建大語(yǔ)言模型，瘋狂堆參數(shù)，2018年6月發(fā)布GPT-1，參數(shù)1.17億；2019年2月發(fā)布GPT-2，參數(shù)15億；2020年5月發(fā)布GPT-3，參數(shù)1750億，在蠻力的道路上“一條路走到黑”。

而Google雖然也祭出了BERT（3億參數(shù)）、T5（110億參數(shù)）和Switch Transformer（1.6萬(wàn)億參數(shù)），表面上跟OpenAI斗得有來(lái)有回，但光從模型的名字就能看出來(lái)：Google總在更換模型搭建的策略，而OpenAI的策略更單一更專(zhuān)注。

比如GPT-2和GPT-1相比，OpenAI沒(méi)有重新設(shè)計(jì)底層結(jié)構(gòu)，而是將Transformer堆疊的層數(shù)從12層增加到48層，并使用了更大的訓(xùn)練數(shù)據(jù)集，而GPT-3進(jìn)一步把層數(shù)增加到了96層，使用比GPT-2還要大的數(shù)據(jù)集，但模型框架基本上沒(méi)有改變。

另外，基于Transformer的大模型演化有三個(gè)分支：Encoder Only，Encode-Decoder，Decoder Only。OpenAI一直堅(jiān)持只用Decoder Only方案，而Google則變來(lái)變?nèi)ィ築ERT模型使用Encoder Only，T5模型又改成了Encode-Decoder。

等到OpenAI突破后，Google匆忙轉(zhuǎn)向Decoder Only方案（PaLM模型），時(shí)間已經(jīng)錯(cuò)失了至少一年半。

在跟OpenAI的軍備競(jìng)賽中，Google卻總沉浸在一些貌似炫酷，但實(shí)則對(duì)AI缺乏信心的產(chǎn)品上——比如2022年發(fā)布的Gato。Gato的思路是先做一個(gè)大模型底座，然后再灌不同的數(shù)據(jù)，以此生成出大量小模型——每個(gè)小模型都有特定的能力。

這么做的目的是讓單個(gè)AI具備盡可能多的功能，更加通用。做一個(gè)簡(jiǎn)單的類(lèi)比：谷歌路線相當(dāng)于讓一個(gè)上完九年義務(wù)教育的12歲小孩兒，去參加鋼琴、寫(xiě)作、編程、舞蹈等一系列專(zhuān)業(yè)技能培訓(xùn)班，靠著“1+1+1…”培養(yǎng)出一個(gè)多才多藝的“全才”。

Gato能執(zhí)行604種不同的任務(wù)，包括給圖片配文、玩雅達(dá)利游戲、操作機(jī)械臂搭積木。不過(guò)，Gato雖做到了“通才”，但實(shí)用性卻相當(dāng)堪憂：其中近一半功能，還不如便宜小巧的“專(zhuān)才AI”好使，有媒體評(píng)價(jià)：一個(gè)平庸的人工智能。

“萬(wàn)能”但又不那么萬(wàn)能的Gato

相比之下，OpenA更熱衷于讓AI“做好一件事”，即像人類(lèi)一樣理解自然語(yǔ)言——這是通向AGI的必經(jīng)之路。

在所有站在Transformer模型肩膀上的團(tuán)隊(duì)中，OpenAI是把“蠻力”發(fā)揮到最淋漓盡致的一個(gè)，算力不夠就買(mǎi)算力，數(shù)據(jù)不夠就找數(shù)據(jù)，別人的牛逼技術(shù)我直接拿來(lái)用，反正就是要把規(guī)模堆上去。終于，在“暴力美學(xué)”的指引下，奇跡出現(xiàn)了。

從成立第一天起，OpenAI就把創(chuàng)造接近甚至超越人類(lèi)的AGI（通用人工智能）作為幾乎唯一的目標(biāo)。而且相比Google的遲疑不定，OpenAI發(fā)起人們（包括馬斯克）是真的相信AI可以成為一個(gè)18歲的成年人，而不是永遠(yuǎn)停留在12歲上打轉(zhuǎn)。

黃仁勛在今年3月對(duì)談OpenAI聯(lián)合創(chuàng)始人Ilya Sutskever時(shí)，問(wèn)了一個(gè)問(wèn)題：“在這個(gè)（GPT研發(fā)的）過(guò)程中，你一直相信，擴(kuò)大規(guī)模會(huì)改善這些模型的性能嗎？” Ilya回答道：“這是一個(gè)直覺(jué)。我有一個(gè)很強(qiáng)烈的信念，更大意味著更好?！?o:p>

這是一場(chǎng)蠻力的勝利，但更是一種信仰的勝利。大模型回報(bào)給“信仰”的禮物，也遠(yuǎn)超想象——隨著參數(shù)量的暴力提升，研究人員突然有一天發(fā)現(xiàn)大模型出現(xiàn)了令人驚喜，但又難以解釋的能力飆升。

他們找了一個(gè)老詞來(lái)形容這種現(xiàn)象：Emergence(涌現(xiàn))。

虔誠(chéng)的回報(bào)

Emergence（涌現(xiàn)）這個(gè)詞，常見(jiàn)于哲學(xué)、系統(tǒng)學(xué)、生物學(xué)等領(lǐng)域，其經(jīng)典的定義是：當(dāng)一個(gè)實(shí)體被觀察到具有各個(gè)部分單獨(dú)存在時(shí)不具備的屬性和能力時(shí)，這種現(xiàn)象就被稱(chēng)之為“涌現(xiàn)”，早在古希臘時(shí)代，這種現(xiàn)象就被亞里士多德研究過(guò)。

后來(lái)，英國(guó)哲學(xué)家George Lewes在1875年第一次發(fā)明了Emergence這個(gè)詞，用來(lái)專(zhuān)門(mén)形容上述現(xiàn)象。1972年，諾貝爾物理學(xué)獎(jiǎng)得主Philip Anderson撰寫(xiě)了一篇名叫“More is Different”的文章，用一句經(jīng)典的金句來(lái)給“涌現(xiàn)”做了解釋?zhuān)?o:p>

當(dāng)一個(gè)系統(tǒng)的量變導(dǎo)致質(zhì)變時(shí)，就稱(chēng)之為“涌現(xiàn)”。

“涌現(xiàn)”被引入到大模型中，可以說(shuō)是相當(dāng)貼切：AI工程師們觀察到一個(gè)現(xiàn)象，隨著模型的參數(shù)量越來(lái)越大，當(dāng)超過(guò)某個(gè)閾值或者“臨界點(diǎn)”的時(shí)候——比如參數(shù)量達(dá)到100億，模型會(huì)出現(xiàn)一些讓開(kāi)發(fā)者完全意想不到的復(fù)雜能力——比如類(lèi)似人類(lèi)的思維和推理能力。

比如，Google大模型測(cè)試基準(zhǔn)BIG-Bench里有一項(xiàng)任務(wù)：給出4個(gè)emoj表情符號(hào)，讓模型回答代表什么電影。簡(jiǎn)單和中等復(fù)雜度的模型都回答錯(cuò)了，只有參數(shù)超過(guò)100億的大模型會(huì)告訴測(cè)試者[4]：這是電影Finding Nemo（海底總動(dòng)員）。

2022年，來(lái)自Google、DeepMind、斯坦福和北卡萊羅納大學(xué)的學(xué)者分析了GPT-3、PaLM、LaMDA等多個(gè)大模型[3]，發(fā)現(xiàn)隨著訓(xùn)練時(shí)間（FLOPs）、參數(shù)量和訓(xùn)練數(shù)據(jù)規(guī)模的增加，模型的某些能力會(huì)“突然”出現(xiàn)拐點(diǎn)，性能肉眼可見(jiàn)地驟然提升。

這些“涌現(xiàn)”能力超過(guò)了137多種[5]，包括多步算術(shù)、詞義消歧、邏輯推導(dǎo)、概念組合、上下文理解等。這項(xiàng)研究給大模型的“涌現(xiàn)”下了一個(gè)定義：如果一項(xiàng)能力只有在大模型中存在，在小模型中觀測(cè)不到，這項(xiàng)能力就是“涌現(xiàn)”出來(lái)的。

微博博主tombkeeper做過(guò)這樣一個(gè)測(cè)試：在ChatGPT剛誕生時(shí)，他將發(fā)表于2018年的一篇充滿隱喻的微博——“對(duì)微博上的佩奇來(lái)說(shuō)，今天是黑暗的一天——她們的摩西殺死了她們的加百列”，交給ChatGPT理解，但ChatGPT回答失敗了。

來(lái)源：微博tombkeeper

而等到2023年3月OpenAI推出了GPT-4，tombkeeper再次將這個(gè)問(wèn)題扔給AI，回答基本接近滿分。

來(lái)源：微博tombkeeper

Google在訓(xùn)練大模型PaLM時(shí)，也發(fā)現(xiàn)隨著參數(shù)規(guī)模的增加，模型會(huì)不斷“涌現(xiàn)”出新的能力。

當(dāng)最終把PaLM的參數(shù)堆到5400億時(shí)，模型就具備了區(qū)分因果關(guān)系、理解上下文概念、解釋冷笑話等能力。比如像前文一樣根據(jù)4個(gè)emoj表情符號(hào)來(lái)猜電影名字。

對(duì)于大模型“涌現(xiàn)”的背后邏輯，現(xiàn)在幾乎沒(méi)有科學(xué)家能徹底講清楚。這讓人想起了1950年阿蘭·圖靈在《計(jì)算機(jī)器與智能》這篇論文中論述過(guò)一個(gè)觀點(diǎn)：“學(xué)習(xí)機(jī)器有一個(gè)重要的特征，即它的老師往往對(duì)機(jī)器內(nèi)部運(yùn)行情況一無(wú)所知?！?o:p>

當(dāng)然，有人對(duì)此欣喜若狂，有人則會(huì)覺(jué)得毛骨悚然。不過(guò)無(wú)論是哪一派，都不得不承認(rèn)那句老話：大力真的能出奇跡。“大力”背后就是信仰——人類(lèi)一定可以用硅基來(lái)模仿大腦結(jié)構(gòu)，最終實(shí)現(xiàn)超越人類(lèi)的智能。而“涌現(xiàn)”告訴我們：這一刻越來(lái)越近了。

信仰的充值

有信仰，就要對(duì)信仰充值。中世紀(jì)基督徒用的是贖罪券，新世紀(jì)AI信徒用的則是晶體管。

文心一言面世之后，李彥宏的一段采訪曾沖上熱搜——李廠長(zhǎng)直言“中國(guó)基本不會(huì)再誕生一家OpenAI”，這似乎有點(diǎn)兒不太給王慧文面子[9]。但這一觀點(diǎn)確實(shí)有理有據(jù)：大模型軍備競(jìng)賽，大概率會(huì)比曾經(jīng)燒掉數(shù)十億美金的網(wǎng)約車(chē)戰(zhàn)爭(zhēng)還要慘烈。

如果按照業(yè)界預(yù)估的成本，GPT-4訓(xùn)練成本在1億美金左右，GPT-3的訓(xùn)練費(fèi)用也要1200萬(wàn)美元。先不說(shuō)昂貴的人才團(tuán)隊(duì)費(fèi)用，王慧文的5000萬(wàn)美元光是投入到GPU購(gòu)買(mǎi)或租賃上，都顯得捉襟見(jiàn)肘。

大模型發(fā)展的三要素：算法、算力、數(shù)據(jù)。其中算力是數(shù)字時(shí)代的“石油”，未來(lái)的缺口一定會(huì)越來(lái)越大。自2012年開(kāi)啟黃金時(shí)代后，AI對(duì)算力的需求開(kāi)始呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。從2012年的AlexNet，到2017年的AlphaGo Zero，算力消耗足足翻了30萬(wàn)倍。

訓(xùn)練大模型需要專(zhuān)門(mén)的GPU集群，傳統(tǒng)數(shù)據(jù)中心的用場(chǎng)不大。微軟為了“迎娶”O(jiān)penAI，曾特地配備了一臺(tái)擁有數(shù)萬(wàn)塊A100與H100 GPU的超級(jí)計(jì)算機(jī)，光硬件入場(chǎng)費(fèi)就花了近10億美金[1]。

即便如此，據(jù)相關(guān)機(jī)構(gòu)測(cè)算，由于ChatGPT與GPT-4的訪問(wèn)量仍在增長(zhǎng)，10億美金的超級(jí)計(jì)算機(jī)馬上又要不夠用了。要么進(jìn)一步擴(kuò)大算力，要么只能盡力控制成本，繼續(xù)采用限流等手段[12]。

英偉達(dá)AI超算產(chǎn)品的第一個(gè)客戶，就是OpenAI

對(duì)此，貼心的賣(mài)鏟人英偉達(dá)推出了AI超算云服務(wù)：租賃8塊旗艦版A100，每月只需37000美元，童叟無(wú)欺。若要達(dá)到訓(xùn)練GPT-4的算力（一萬(wàn)塊A100）月租金需4600萬(wàn)美元左右——每月凈利潤(rùn)不足一個(gè)小目標(biāo)的企業(yè)，的確可以洗洗睡了。

跟用神經(jīng)網(wǎng)絡(luò)來(lái)模仿大腦一樣，AI算力的昂貴也跟人腦的屬性保持一致。

一個(gè)人的大腦大約有860億個(gè)神經(jīng)元，每個(gè)神經(jīng)元平均跟其他7000個(gè)神經(jīng)元相連接，所以大約有6000萬(wàn)億個(gè)連接。盡管大腦的重量只占人體的2%左右，但當(dāng)無(wú)數(shù)神經(jīng)元連接工作的時(shí)候，它們每天需要消耗人體總能量的20%～30%。

因此，即使是碳基生物的“智能”，也是一種暴力堆砌神經(jīng)元后的“涌現(xiàn)”，對(duì)能量的消耗巨大。而相比經(jīng)過(guò)上億年進(jìn)化的碳基神經(jīng)元，晶體管構(gòu)建的神經(jīng)網(wǎng)絡(luò)離“低功耗”相距甚遠(yuǎn)——比如柯潔功率是20w，而跟他下棋的AlphaGo功耗是他的5萬(wàn)倍。

因此，人類(lèi)要想做出真正的AGI，還需要繼續(xù)給信仰來(lái)充值。

對(duì)全人類(lèi)來(lái)說(shuō)，這種充值顯然是無(wú)比劃算的。仔細(xì)算一算，OpenAI燒掉的10億美金，不僅給全球的科技公司找到了一片“新大陸”，還給愈發(fā)內(nèi)卷的全球經(jīng)濟(jì)點(diǎn)亮了增量邏輯。在美元泛濫的當(dāng)下，還有比這10億美元性價(jià)比更高的項(xiàng)目嗎？

當(dāng)“新大陸”被發(fā)現(xiàn)后，全世界都會(huì)蜂擁而至。比爾·蓋茨雖然現(xiàn)在是AI的狂熱鼓吹者，但早在微軟第一次投資OpenAI時(shí)，他是強(qiáng)烈的懷疑者，直到去年年底看到GPT-4的內(nèi)部演示才對(duì)外表示：It’s a shock，this thing is amazing。

比爾·蓋茨在未來(lái)可能擁有人工智能領(lǐng)域最雄偉大廈的冠名權(quán)，但OpenAI的創(chuàng)始人們以及更多連接主義學(xué)派的人工智能先驅(qū)，值得人們?cè)趶V場(chǎng)上樹(shù)立雕像。大模型的煉丹之路，信則靈，不信則妄，跟風(fēng)的投機(jī)主義者不配留下姓名。

最后，人類(lèi)通往地獄或者天堂的道路，一定是由AI虔誠(chéng)的信徒用一顆顆晶體管鋪就的。

參考資料：

[1] ChatGPT and generative AI are booming， but the costs can be extraordinary， CNBC

[2] Microsoft spent hundreds of millions of dollars on a ChatGPT supercomputer，The Verge

[3] Emergent Abilities of Large Language Models， Jason Wei等，TMLR

[4] The Unpredictable Abilities Emerging From Large AI Models

[5] 137 emergent abilities of large language models， Jason Wei

[6] Harnessing the Power of LLMs in Practice

[7] Alphabet’s Google and DeepMind Pause Grudges， Join Forces to Chase OpenAI，The Information

本文來(lái)自微信公眾號(hào)：遠(yuǎn)川研究所（ID：YuanChuanInstitution），作者：陳彬

標(biāo)簽：

責(zé)任編輯：FD31