在科技飛速發展的當下,AI大模型無疑是最耀眼的創新成果之一。它廣泛應用于智能客服、智能寫作、自動駕駛、醫療影像診斷等眾多領域,深度融入人們的生活與工作,為社會帶來了前所未有的便利與效益。
然而,繁榮背后潛藏危機,AI大模型在訓練和應用過程中,面臨著一系列復雜的數據法律風險。這些風險不僅關乎個人隱私、企業核心利益,更對社會的安全穩定和長遠發展構成威脅。深入剖析并妥善應對這些風險,已成為推動AI大模型技術長遠發展的關鍵所在。
一、AI大模型訓練環節的數據法律風險
AI大模型訓練需要海量數據(15.890, -0.14, -0.87%)的支撐,數據來源廣泛,涵蓋公開數據集、網絡爬取數據、用戶生成內容等多個渠道。但這種多元的數據來源,也為AI大模型帶來了侵權風險、數據偏差風險以及信息泄露等法律風險。
AI大模型訓練所依賴的數據量極為龐大,其中包含了大量受著作權保護的作品。在獲取和使用這些數據時,開發者稍有疏忽,就可能陷入著作權侵權的困境。近年來,相關法律糾紛不斷涌現。《紐約時報》起訴OpenAI公司,指控其非法復制數百萬篇文章用于ChatGPT大模型訓練,索賠金額高達數十億美元;三位美國作者對Anthropic PBC發起訴訟,稱其未經授權使用大量書籍訓練Claude大模型;2023年美國作家協會起訴Meta非法使用書籍數據。這些案例充分表明,大模型訓練中的著作權侵權問題已不容忽視。
與此同時,大模型預訓練數據中往往包含大量個人信息,未經用戶同意收集和使用其數據,也會違反個人信息保護相關規則。但是依據《個人信息保護法》,處理個人信息有著嚴格規范。大模型開發者獲取海量個人信息數據用于訓練的成本極高,幾乎不可能獲得每位信息主體的同意。在當前大模型的技術環境下,對于已公開的個人信息“合理范圍”的界定也極為模糊。以ChatGPT為例,其采用“機器學習即服務”(MLaaS)的運營模式,用戶輸入的數據信息會被開發者獲取,也意味著用戶的個人信息時刻處于風險之中。
訓練數據質量直接決定了AI大模型的性能和輸出結果,低質量的數據可能導致模型產生錯誤的預測和決策,甚至可能引發嚴重的安全事故。數據偏差風險主要體現在價值性偏差、時效性偏差和真實性偏差三個方面。若訓練數據中存在歧視、暴力、情色等不良內容,大模型學習后輸出的信息也可能帶有價值偏差。GPT類大模型訓練時常用超大規模無人工標注數據,雖然擴大了訓練數據規模,但這些數據質量參差不齊,包含大量價值偏差內容。盡管開發者嘗試通過微調、基于人類反饋的強化學習等技術手段來減少此類風險,但是由于大模型機器學習過程存在技術黑箱特性,這些方法難以徹底避免價值性偏差信息的輸出。
同時,各類AI大模型的訓練數據存在時效滯后問題,無法及時融入最新數據。這決定了大模型無法像搜索引擎那樣即時獲取最新的信息。比如ChatGPT剛推出時,其基于的GPT-3.5預訓練數據截至2021年12月,這就造成答案可能滯后或不準確。即便部分模型提供聯網檢索功能,也未能從根本上解決訓練數據時效性偏差的問題。
此外,AI大模型訓練數據不夠,會導致輸出的信息與真實情況不符,也就是所謂的“幻覺”現象,例如利用一些AI大模型搜集法律案例,結果輸出一些并不存在的司法案例。特別是由于存在錯誤數據信息注入、偏見強化、惡意內容嵌入等問題,可能導致模型生成誤導性內容,也會帶來難以估量的社會風險。例如,科大訊飛(51.850, -0.30, -0.58%)AI學習機就曾因內容審核不嚴格,導致不當內容被用于數據訓練,引發輿情事件致使市值蒸發百億元。
AI大模型訓練過程涉及大量敏感數據,如個人隱私數據、商業機密數據等,一旦這些數據在訓練過程中泄露,將給個人和企業帶來巨大損失。數據泄露風險主要來源于數據存儲和傳輸過程中的安全漏洞,以及數據訪問和使用的權限管理不當。用戶使用時輸入的數據可能被用于模型升級迭代,若這些數據包含商業秘密或個人隱私,無疑增加了用戶數據泄露的風險。例如,2023年韓國三星電子員工因違規使用ChatGPT,導致半導體機密資料外泄,給企業造成了嚴重的經濟損失。此外,對GPT-2的研究發現,能夠通過技術手段抽取其預訓練時的訓練數據,還可通過特定提示詞誘導大模型輸出其他用戶輸入的外部數據。
二、AI大模型應用場景中的數據風險類型
在AI大模型的實際應用過程中,同樣存在著多種數據風險。這些風險不僅影響用戶體驗,還可能對社會秩序和公共利益造成損害。從知識產權角度看,AI生成的圖像或文本可能未經授權使用了他人的作品或形象,就構成侵權。例如,一些AI繪畫作品可能因借鑒了他人的創作元素而引發著作權糾紛。AI生成內容若涉及對他人肖像權、名譽權的侵害,同樣會引發人格權法律糾紛。此外,AI生成的內容還可能包含虛假信息、誤導性內容或有害內容,這些內容可能對社會秩序和公共利益造成損害,擾亂正常的社會輿論環境。
AI大模型還存在被惡意利用的風險。其中,模型越獄(Jailbreaking)是較為突出的問題。模型越獄主要是用戶利用一些巧妙設計的指令,逃避AI大模型預先設置的安全防護規則,讓模型生成不符合倫理道德、違法內容。一些用戶可能利用模型越獄技術獲取模型的敏感信息(如訓練數據、模型參數等),或者是讓模型生成有害內容(如惡意軟件代碼、煽動性言論等)。基于此,耶魯大學計算機科學教授阿明·卡巴西指出,“大模型驅動的機器人(20.800, -0.19, -0.91%)在現實世界中的越獄威脅將達到全新的高度”。不法分子如果繞過AI大模型的安全防護,操控機器人執行破壞性的任務,比如控制自動駕駛汽車撞向行人,或是將機器狗引導到敏感地點實施爆炸任務,這將嚴重威脅人類社會的安全穩定。
隨著AI大模型的廣泛應用,大模型的網絡安全日益重要。2025年1月,DeepSeek連續遭遇HailBot和RapperBot僵尸網絡的TB級DDoS攻擊,導致大模型服務多次中斷,給用戶帶來極大不便。AI在數據授權方面,企業未對數據進行合法授權的二次使用,可能構成不正當競爭行為。因此,AI大模型的數據使用不合規,不僅影響AI模型的性能,還可能涉及數據提供者、模型開發者和使用者之間的復雜法律責任問題。此外,在數據跨境傳輸方面,AIGC服務提供者將數據傳輸至境外時,若不符合相關規定,會觸發數據出境合規義務要求。
三、應對AI大模型數據法律風險的策略
面對AI大模型數據法律風險,必須積極采取有效策略加以應對。通過完善法律規制體系、運用技術手段以及強化保障措施等多方面努力,為AI大模型的健康發展保駕護航。
第一,需要完善AI大模型數據法律規則體系。在著作權方面,可考慮將使用作品類數據進行AI大模型預訓練設定為著作權的合理使用方式之一,但要平衡好著作權人與開發者的利益。允許著作權人明確表示不同意作品用于AI大模型預訓練,同時通過征收著作權補償金成立公益性基金會,激勵文化藝術創作。
在個人信息保護方面,調整《個人信息保護法》相關規定。對于普通個人信息,設定“默示同意”規則,只要信息主體未特別聲明,默認同意其普通個人信息被用于大模型預訓練;對于敏感個人信息,堅持“明示同意”規則。筆者建議,可將AI大模型開發者處理已公開個人信息的“合理范圍”,界定在不侵害信息主體人格權的底線之上。可以通過設定具體法律責任,督促大模型開發者防范數據偏差風險。對于AI大模型輸出價值偏差信息的情況,明確開發者應承擔的行政法律責任,避免民事法律責任約束不足和刑事法律責任過重的問題。對于AI大模型數據泄露風險,明確開發者在數據安全保護方面的義務和責任,對違規行為進行嚴厲處罰。
第二,需要運用多種技術手段,構建AI大模型安全防護閉環,提升數據安全性和準確性。在AI大模型訓練過程中,為了保持模型性能,有必要根據訓練進度自動調整數據保護強度,既不讓隱私泄露又能保持模型準確性。通過同態加密技術讓AI在加密數據上進行計算,可以確保數據在計算過程中的安全性,并且在不影響數據分析準確性的前提下,可以向查詢結果添加噪聲,或者是采用分布式協作讓萬千臺設備合作完成大模型訓練,以全面提升AI大模型的數據保護能級。
在AI大模型應用過程中,可以通過多模態交叉驗證、知識圖譜、混合防御等技術,加強數據驗證和污染檢測,不斷優化模型數據防護系統。具體技術上,多模態交叉驗證系統就像給AI配備了“火眼金睛”,能同時核對文字、圖片、視頻之間的關聯性,清除生成結果中的虛假描述。知識圖譜系統則相當于內置的“核查員”,每秒能比對數百萬條信息,確保AI不會生成出自相矛盾的內容。混合防御更是讓AI大模型在具體應用場景中擁有“自我凈化”能力,采用“基線對抗訓練+實時動態防護”的混合防御模式,可延長大模型在真實復雜應用場景中的安全生命周期。
第三,應強化數據安全保障措施,建立數據監測和預警機制。為防范AI大模型可能出現的越獄風險、侵權風險,需要將AI技術與倫理和行為建模深入結合,在模型設計和開發階段,應采用先進的安全技術和算法,提高AI大模型的安全性;在AI大模型部署和應用階段,應進行嚴格的安全測試和評估,持續進化融合確保適應不同場景的需求,找到數據保護和模型性能之間最佳的平衡點。
同時,應建立健全AI大模型安全管理制度,對企業員工展開數據合規培訓,提高員工的數據安全意識和合規操作技能。在AI大模型數據采集、存儲、使用、共享等各個環節,通過解析模型內部推導過程,實時監控數據的使用和傳輸情況,及時發現和處理數據安全隱患,確保AI大模型服務的穩定運行。
總而言之,AI大模型是科技迭代更新的重要推動者,應用場景已經擴展到金融、醫療、制造等多個領域,但也伴隨著諸多數據法律風險,以及還可能引發就業、人機矛盾等社會問題。為確保AI大模型的可持續發展,我們必須高度重視這些法律風險,多舉措完善AI大模型的數據風險規制機制,進一步實現智能化科技創新與社會公共利益的動態平衡。
(作者孫伯龍為杭州師范大學副教授、財稅法研究中心主任,譯有澤維爾·奧伯森所著《對機器人征稅:如何使數字經濟適應AI?》)