AI黑盒“魔法對轟”！OpenAI神操作：讓GPT-4去解釋GPT-2

來源：TechWeb時間：2023-05-12 10:59:21

由ChatGPT掀起的這場AI革命，令人們感慨神奇的同時，也不禁發(fā)出疑問:AI 究竟是怎么做到這一切的?

此前，即便是專業(yè)的數(shù)據(jù)科學家，都難以解釋大模型(LLM)運作的背后。而最近，OpenAI似乎做到了——本周二，OpenAI 發(fā)布了其最新研究:讓 GPT-4去試著解釋 GPT-2的行為。

即：讓一個 AI “黑盒”去解釋另一個 AI “黑盒”!

1、工作量太大，決定讓 GPT-4 去解釋 GPT-2

OpenAI 之所以做這項研究的原因，在于近來人們對 AI 倫理與治理的擔憂:“語言模型的能力越來越強，部署也越來越廣泛，但我們對其內(nèi)部工作方式的理解仍然非常有限。”

由于 AI 的“黑盒”性質，人們很難分辨大模型的輸出結果是否采用了帶有偏見性質的方法，也難以區(qū)分其正確性，因而“可解釋性”是亟待重要的一個問題。

AI 的發(fā)展很大程度上是在模仿人類，因而大模型和人腦一樣，也由神經(jīng)元組成，它會觀察文本規(guī)律進而影響到輸出結果。所以想要研究 AI 的“可解釋性”，理論上要先了解大模型的各個神經(jīng)元在做什么。

按理來說，這本應由人類手動檢查，來弄清神經(jīng)元所代表的數(shù)據(jù)特征——參數(shù)量少還算可行，可對于如今動輒百億、千億級參數(shù)的神經(jīng)網(wǎng)絡，這個工作量顯然過于“離譜”了。

于是，OpenAI 靈機一動:或許，可以用“魔法”打敗“魔法”?

“我們用 GPT-4為大型語言模型中的神經(jīng)元行為自動編寫解釋，并為這些解釋打分。”而 GPT-4首次解釋的對象是 GPT-2，一個 OpenAI 發(fā)布于4年前、神經(jīng)元數(shù)量超過30萬個的開源大模型。

2、讓 GPT-4“解釋” GPT-2的原理

具體來說，讓 GPT-4“解釋” GPT-2的過程，整體分為三個步驟。

(1)首先，讓 GPT-4生成解釋，即給出一個 GPT-2神經(jīng)元，向 GPT-4展示相關的文本序列和激活情況，產(chǎn)生一個對其行為的解釋。

GPT-4對 GPT-2該神經(jīng)元生成的解釋為:與電影、人物和娛樂有關。

(2)其次，再次使用 GPT-4，模擬被解釋的神經(jīng)元會做什么。下圖即 GPT-4生成的模擬內(nèi)容。

(3)最后，比較 GPT-4模擬神經(jīng)元的結果與 GPT-2真實神經(jīng)元的結果，根據(jù)匹配程度對 GPT-4的解釋進行評分。在下圖展示的示例中，GPT-4得分為0.34。

通過這樣的方法，OpenAI 共讓 GPT-4解釋了 GPT-2中的307200個神經(jīng)元，其中大多數(shù)解釋的得分很低，只有超過1000個神經(jīng)元的解釋得分高于0.8。

在官博中，OpenAI承認目前 GPT-4生成的解釋并不完美，尤其在解釋比 GPT-2規(guī)模更大的模型時，效果更是不佳:“可能是因為后面的 layer 更難解釋。”

盡管絕大多數(shù)解釋的得分不高，但 OpenAI 認為，“即使 GPT-4給出的解釋比人類差，但也還有改進的余地”，未來通過 ML 技術可提高 GPT-4的解釋能力，并提出了三種提高解釋得分的方法:

·對解釋進行迭代，通過讓 GPT-4想出可能的反例，根據(jù)其激活情況修改解釋來提高分數(shù)。

·使用更大的模型來進行解釋，平均得分也會上升。

·調(diào)整被解釋模型的結構，用不同的激活函數(shù)訓練模型。

值得一提的是，以上這些解釋數(shù)據(jù)集、可視化工具以及代碼，OpenAI 都已在 GitHub 上開源發(fā)布:“我們希望研究界能開發(fā)出新技術以生成更高分的解釋，以及更好的工具來使用解釋探索 GPT-2。”

(GitHub 地址:https://github.com/openai/automated-interpretability)

3、“再搞下去，AI 真的要覺醒了”

除此之外，OpenAI 還提到了目前他們采取的方法有很多局限性，未來需要一一攻克:

·GPT-4給出的解釋總是很簡短，但神經(jīng)元可能有著非常復雜的行為，不能簡潔描述。

·當前的方法只解釋了神經(jīng)元的行為，并沒有涉及下游影響，希望最終能自動化找到并解釋能實現(xiàn)復雜行為的整個神經(jīng)回路。

·只解釋了神經(jīng)元的行為，并沒有解釋產(chǎn)生這種行為的背后機制。

·整個過程都是相當密集的計算，算力消耗很大。

在博文的最后，OpenAI 展望道:“我們希望將我們最大的模型解釋為一種在部署前后檢測對齊和安全問題的方式。然而，在這些技術能夠揭露不誠實等行為之前，我們還有很長的路要走。”

對于 OpenAI 的這個研究成果，今日在國內(nèi)外各大技術平臺也引起了廣泛關注。

有人在意其得分不佳：“對 GPT-2的解釋都不行，就更不知道 GPT-3和 GPT-4內(nèi)部發(fā)生了什么，但這才是許多人更關注的答案。”有人感慨 AI 進化的方式愈發(fā)先進：“未來就是用 AI 完善 AI 模型，會加速進化。”也有人擔心 AI 進化的未來：“再搞下去，AI 真的要覺醒了。”

那么對此，你又有什么看法呢?

標簽：人工智能大模型運作數(shù)據(jù)模型運作原

責任編輯：FD31

上一篇：qq三國兒童蛋糕的書哪里買？qq三國鼓舞貢品食盒書在哪買？

下一篇：最后一頁