久久久久精品一区二区三区不卡_2020国产精品午夜视频_下载91香蕉视频_丁香婷婷在线观看_日韩在线中文字幕av

全球熱頭條丨學(xué)而思被指“偷數(shù)據(jù)”訓(xùn)練AI，牽出大模型“隱秘的角落”

來(lái)源：21世紀(jì)經(jīng)濟(jì)報(bào)道時(shí)間：2023-06-17 06:17:37

南方財(cái)經(jīng)全媒體見習(xí)記者馬嘉璐 21世紀(jì)經(jīng)濟(jì)報(bào)道記者尤一煒廣州報(bào)道

近日，筆神作文指控昔日合作伙伴學(xué)而思“偷數(shù)據(jù)”訓(xùn)練自家AI產(chǎn)品，隨后學(xué)而思對(duì)此公開予以否認(rèn)。筆神作文稱之為國(guó)內(nèi)“AI大模型數(shù)據(jù)被盜第一案”。不過(guò)，有律師分析，從現(xiàn)有內(nèi)容來(lái)看，該案應(yīng)屬于普通的數(shù)據(jù)侵權(quán)糾紛或協(xié)議糾紛，目前還不能判斷學(xué)而思是否違法。

(資料圖片僅供參考)

筆神作文與學(xué)而思的糾紛，牽引出大模型的一個(gè)“隱秘的角落”：用于訓(xùn)練AI大模型的數(shù)據(jù)，來(lái)源是否合法合規(guī)？事實(shí)上，關(guān)于大模型數(shù)據(jù)集的紛爭(zhēng)已在海內(nèi)外頻頻上演。

監(jiān)管方面正在注意AI大模型訓(xùn)練數(shù)據(jù)集的合法合規(guī)。國(guó)家網(wǎng)信辦于今年4月公布的《生成式人工智能服務(wù)管理辦法（征求意見稿）》明確，預(yù)訓(xùn)練、優(yōu)化訓(xùn)練數(shù)據(jù)應(yīng)保證真實(shí)性、準(zhǔn)確性、客觀性、多樣性，不含有侵犯知識(shí)產(chǎn)權(quán)的內(nèi)容，包含個(gè)人信息的應(yīng)符合“告知-同意”等原則。對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)數(shù)字經(jīng)濟(jì)與法律創(chuàng)新研究中心執(zhí)行主任張欣認(rèn)為，平衡安全和發(fā)展成為大模型數(shù)據(jù)集監(jiān)管的重要挑戰(zhàn)，數(shù)據(jù)安全審計(jì)制度等可以為此提供借鑒。

或?yàn)閲?guó)內(nèi)“AI大模型數(shù)據(jù)被盜第一案”

筆神作文與學(xué)而思關(guān)于是否“偷數(shù)據(jù)”在互聯(lián)網(wǎng)公開“喊話”，已進(jìn)行了一個(gè)半回合。

筆神作文將之稱為“AI大模型數(shù)據(jù)被盜第一案”。6月13日下午，筆神作文通過(guò)自己的微信公眾號(hào)、微博和第三方媒體發(fā)布消息，指控其合作伙伴學(xué)而思未經(jīng)授權(quán)爬取了筆神作文的數(shù)據(jù)，用于訓(xùn)練大模型產(chǎn)品。同日17時(shí)，學(xué)而思官方公眾號(hào)對(duì)此事作出回應(yīng)，表示自己對(duì)筆神作文數(shù)據(jù)的使用屬于雙方合同約定的正常合作范圍，筆神作文“主觀揣測(cè)”“與事實(shí)嚴(yán)重不符”。

14日19時(shí)，筆神作文再次通過(guò)微信公眾號(hào)列舉更多“證據(jù)”，力圖證明學(xué)而思在4月13日至17日，通過(guò)“爬蟲”技術(shù)非法訪問(wèn)、緩存筆神作文App服務(wù)器數(shù)據(jù)258萬(wàn)次。

“筆神作文APP”微信公眾號(hào)公布的雙方合作API接口“每日數(shù)據(jù)調(diào)用量折線圖”

面對(duì)筆神作文的再次“喊話”，學(xué)而思是否有新的回應(yīng)？截至發(fā)稿前，學(xué)而思與筆神作文方面均未針對(duì)此事向南方財(cái)經(jīng)全媒體記者給出相關(guān)回應(yīng)。

在13日的聲明中，學(xué)而思透露雙方合作的內(nèi)容：筆神作文為學(xué)而思提供“筆神作文范文素材服務(wù)接口”，用于學(xué)而思相關(guān)服務(wù)中，每月保底費(fèi)用包含的調(diào)用次數(shù)為百萬(wàn)次量級(jí)。筆神作文則在14日發(fā)布的消息中稱，雙方合同明確“甲方（注：三體云聯(lián)公司，為學(xué)而思關(guān)聯(lián)公司）不得在未經(jīng)乙方（注：一筆兩劃公司，“筆神作文”系該司旗下品牌）允許的情況下用于任何其他用途，包括緩存，存儲(chǔ)，作為語(yǔ)料進(jìn)行計(jì)算，訓(xùn)練等?！?/p>

筆神作文表示，將通過(guò)司法程序解決糾紛，要求“學(xué)而思”支付1元賠償金，公開道歉，并刪除已爬取的數(shù)據(jù)。

律師：現(xiàn)有內(nèi)容難以判斷學(xué)而思違法

“‘AI大模型數(shù)據(jù)被盜第一案’有些噱頭的成分。”北京市競(jìng)天公誠(chéng)律師事務(wù)所合伙人周楊認(rèn)為，本案爭(zhēng)議的焦點(diǎn)是用于訓(xùn)練AI大模型的數(shù)據(jù)，而并非AI大模型的算法，應(yīng)屬于普通的數(shù)據(jù)侵權(quán)糾紛或協(xié)議糾紛。

海問(wèn)律師事務(wù)所合伙人楊建媛分析，該事件可以從知識(shí)產(chǎn)權(quán)保護(hù)和反不正當(dāng)競(jìng)爭(zhēng)兩個(gè)角度來(lái)看。從知識(shí)產(chǎn)權(quán)保護(hù)角度，如果筆神作文對(duì)學(xué)而思獲取的內(nèi)容享有著作權(quán)，且學(xué)而思的行為不符合著作權(quán)法規(guī)定的“可以不經(jīng)著作權(quán)人許可”的“例外”情況，則學(xué)而思的行為需經(jīng)過(guò)筆神作文的許可。她還強(qiáng)調(diào)，如筆神作文所稱為事實(shí)，學(xué)而思對(duì)筆神作文數(shù)據(jù)的使用可能超出了“合理使用”的范疇。

從反不正當(dāng)競(jìng)爭(zhēng)角度，學(xué)而思是否存在未經(jīng)授權(quán)爬取筆神作文數(shù)據(jù)的情況、是否利用所獲數(shù)據(jù)開發(fā)實(shí)質(zhì)性替代筆神作文的產(chǎn)品或服務(wù)，是判斷是否構(gòu)成侵權(quán)的關(guān)鍵。楊建媛分析，從筆神作文的敘述來(lái)看，其可能并未對(duì)學(xué)而思設(shè)置反爬措施，但是在協(xié)議中約定了相關(guān)禁止行為。單純的違約行為較難直接認(rèn)定為違反了反不正當(dāng)競(jìng)爭(zhēng)法下的商業(yè)道德要求。另外，學(xué)而思將數(shù)據(jù)用于大模型訓(xùn)練，訓(xùn)練出來(lái)的產(chǎn)品與筆神作文的產(chǎn)品是否存在競(jìng)爭(zhēng)關(guān)系，是否會(huì)對(duì)筆神作文造成不良后果，還存在爭(zhēng)議。

周楊也表示，學(xué)而思是否違法，關(guān)鍵要看合同中對(duì)數(shù)據(jù)的獲取、處理和使用是如何約定的，以及筆神作文是否對(duì)作品、數(shù)據(jù)庫(kù)享有版權(quán)。根據(jù)現(xiàn)有雙方披露的內(nèi)容，“還不能判斷”。

數(shù)據(jù)來(lái)源是否合規(guī)牽出“隱秘的角落”

筆神作文與學(xué)而思的糾紛，牽引出大模型的一個(gè)“隱秘的角落”：訓(xùn)練AI大模型通常需要海量的數(shù)據(jù)，而這些數(shù)據(jù)的來(lái)源是否合法合規(guī)？

事實(shí)上，隨著ChatGPT帶動(dòng)生成式AI的爆火，關(guān)于AI大模型訓(xùn)練數(shù)據(jù)的紛爭(zhēng)在海內(nèi)外頻頻上演。

爭(zhēng)議所涉及的數(shù)據(jù)可以大致分為兩類：一類有著明確的知識(shí)產(chǎn)權(quán)，如原創(chuàng)的圖片、音樂(lè)、視頻、文章等；一類由用戶在平臺(tái)上的零散發(fā)言匯集而成，如百科、社區(qū)、貼吧等。

今年年初，Stability AI受到美國(guó)大型商業(yè)圖庫(kù)提供商Getty Images以及漫畫家的分別起訴，原因是他們認(rèn)為Stability AI用于訓(xùn)練AI圖像生成模型Stable Diffusion的數(shù)據(jù)“非法復(fù)制和處理了受版權(quán)保護(hù)的圖像”。

此外，推特、“美版貼吧”Reddit也在今年上半年相繼宣布對(duì)API接口收費(fèi)，且價(jià)格不菲。此前，這些平臺(tái)的內(nèi)容可以被谷歌、openAI等公司免費(fèi)爬取，用作大語(yǔ)言模型的訓(xùn)練庫(kù)。推特CEO馬斯克稱“他們（微軟）非法利用推特的數(shù)據(jù)來(lái)訓(xùn)練，是時(shí)候起訴他們了?！盧eddit則在其官網(wǎng)更新條款：“未經(jīng)Reddit明確同意，您不得將Reddit上的內(nèi)容用作任何模型訓(xùn)練的輸入。未經(jīng)明確批準(zhǔn)，禁止將任何使用Reddit數(shù)據(jù)訓(xùn)練的模型用于商業(yè)用途?！?/p>

谷歌C4數(shù)據(jù)集支撐了多個(gè)AI模型的預(yù)訓(xùn)練。今年4月，《華盛頓郵報(bào)》與艾倫人工智能研究院合作調(diào)查發(fā)現(xiàn)，該數(shù)據(jù)集中存在只接受付費(fèi)訂閱的網(wǎng)站，以及近30個(gè)被美國(guó)政府認(rèn)定為盜版和假冒產(chǎn)品市場(chǎng)的網(wǎng)站。

平衡安全與發(fā)展成監(jiān)管挑戰(zhàn)

監(jiān)管方面正在注意AI大模型訓(xùn)練數(shù)據(jù)集的情況。

當(dāng)?shù)貢r(shí)間2023年6月14日，歐洲議會(huì)投票通過(guò)關(guān)于《人工智能法案》的談判授權(quán)草案，意味著該法案將進(jìn)入歐盟啟動(dòng)監(jiān)管前的最后階段。該法案要求OpenAI、谷歌和微軟等基礎(chǔ)模型的供應(yīng)商需要公開，他們?cè)谟?xùn)練模型過(guò)程中，是否使用了受版權(quán)保護(hù)的數(shù)據(jù)。

此前，國(guó)家網(wǎng)信辦于今年4月公布的《生成式人工智能服務(wù)管理辦法（征求意見稿）》也明確，用于生成式人工智能產(chǎn)品的預(yù)訓(xùn)練、優(yōu)化訓(xùn)練數(shù)據(jù)，應(yīng)符合網(wǎng)安法等法律法規(guī)的要求，不含有侵犯知識(shí)產(chǎn)權(quán)的內(nèi)容，包含個(gè)人信息的應(yīng)符合“告知-同意”原則等要求，還應(yīng)保證數(shù)據(jù)的真實(shí)性、準(zhǔn)確性、客觀性、多樣性。

“對(duì)大模型數(shù)據(jù)集的監(jiān)管，如何能做到安全和發(fā)展的平衡，是一個(gè)重要挑戰(zhàn)。”對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)數(shù)字經(jīng)濟(jì)與法律創(chuàng)新研究中心執(zhí)行主任張欣表示，《生成式人工智能服務(wù)管理辦法（征求意見稿）》已對(duì)AI訓(xùn)練數(shù)據(jù)集的合規(guī)要求搭建了清晰的框架，在運(yùn)用著作權(quán)和知識(shí)產(chǎn)權(quán)方式之外，還可以探索使用多種法律手段去實(shí)現(xiàn)。

張欣分析，監(jiān)管的落地，還存在事后難追溯等問(wèn)題，尤其在算法復(fù)雜度日益攀升、出現(xiàn)“算法黑箱”等情況下，如果從事后去還原和追溯數(shù)據(jù)集是否合規(guī)，十分依賴大模型開發(fā)商提供數(shù)據(jù)處理記錄和日志，很難從外部進(jìn)行確認(rèn)。此外，從技術(shù)上來(lái)說(shuō)大模型很難精確刪除某個(gè)用戶的個(gè)人信息，這就限制了個(gè)人信息保護(hù)中“刪除權(quán)”的行使。

歐盟《人工智能法案》草案設(shè)置了吹哨人制度，鼓勵(lì)專業(yè)人士從內(nèi)部進(jìn)行監(jiān)督，為監(jiān)管提供了一種創(chuàng)新思路。張欣認(rèn)為，大模型開發(fā)者應(yīng)做好信息記錄和披露的工作，提高數(shù)據(jù)集的透明度，在算法解釋性遇到困難的時(shí)候，至少可以通過(guò)數(shù)據(jù)的透明和可解釋來(lái)尋找答案。數(shù)據(jù)安全審計(jì)制度在國(guó)際上也有較為通行的經(jīng)驗(yàn)，大模型數(shù)據(jù)監(jiān)管也可以探索使用審計(jì)的方式，找到透明度與保護(hù)商業(yè)秘密之間的平衡。

標(biāo)簽：

責(zé)任編輯：FD31

上一篇：短訊！從“破局者”進(jìn)階“引領(lǐng)者” Dynabook 打造辦公整體解決方案全新進(jìn)化論

下一篇：最后一頁(yè)