韩国三级一区-韩国三级香港三级日本三级la-韩国三级香港三级日本三级-韩国三级视频网站-日韩欧美一及在线播放-日韩欧美一二三区

首頁|必讀|視頻|專訪|運營|制造|監管|大數據|物聯網|量子|低空經濟|智能汽車|特約記者
手機|互聯網|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯網|會展
首頁 >> 人工智能 >> 正文

生成式人工智能的算法倫理難點分析與探索

2025年4月9日 10:03  大數據期刊  作 者:上海市互聯網信息辦公室施敏 楊海軍

摘 要  自2022年下半年以來,生成式人工智能技術和產業快速發展。聚焦生成式人工智能技術所用的生成式算法,結合相關法規規范,提出“生成式算法三定律”倫理原則。結合其技術特點,對實踐中存在的倫理難點開展分析,并初步探索并提出解決框架。

關鍵詞 生成式人工智能;大語言模型;生成式算法;算法倫理

0 引言

自2022年下半年以來,生成式人工智能技術和產業快速發展。根據《互聯網信息服務算法推薦管理規定》《互聯網信息服務深度合成管理規定》《生成式人工智能服務管理暫行辦法》中的有關定義,生成式人工智能技術(具有文本、圖片、音頻、視頻等內容生成能力的模型及相關技術)用的是生成類算法。本文聚焦生成式算法,結合相關法律法規、倫理規范,提出“生成式算法三定律”的倫理原則;同時,結合其技術特點,分析在實踐中存在的倫理難點,并初步探索解決框架。

1 相關法律法規對生成式算法的倫理要求

根據《中華人民共和國網絡安全法》《中華人民共和國數據安全法》《中華人民共和國個人信息保護法》3部上位法、上述3部算法相關法規、我國提出的《全球人工智能治理倡議》和《科技倫理審查辦法》等,針對面向公眾提供服務的生成式算法的合規和倫理要求,形成“生成式算法三定律”(12條指引)。

1.1 第一定律:生成式算法應“以人為本”,保障人的隱私和合法權益

(1)算法應保障所有用戶的知情權、選擇停止權和涉個人信息的刪除權。

(2)算法在訓練、優化、提供服務中使用、生成的數據,涉個人信息的,應取得個人同意或符合法律法規規定,尊重他人肖像權、名譽權、榮譽權、隱私權和個人信息權益,不得危害他人身心健康。

(3)在做到第一點的基礎上,算法應采取措施充分尊重并保護特殊群體的合法權益,如防范未成年人過度依賴或沉迷、對老年人的智能化適老服務和防范電信網絡詐騙等。

(4)算法應造福于人類,增進人類共同福祉,保障社會安全,尊重人類權益。

1.2 第二定律:生成式算法應遵循向上向善、公平公正原則

(1)算法生成的內容符合和平、發展、公平、正義、民主、自由的全人類共同價值和所在國家、地區的價值觀要求。不得利用算法生成各類法律、法規禁止和違背倫理道德的內容。不得利用算法操縱輿論、傳播虛假信息。鼓勵生成積極健康、向上向善的優質內容。對圖片、視頻等生成內容應予以標識。

(2)在算法的設計、優化與應用中,應采取有效措施防止民族、信仰、國別、地域、性別、年齡、職業、健康等各類歧視。

(3)不得利用算法實施侵犯知識產權、違背商業道德、壟斷和不正當競爭等行為。

(4)明確和公開算法服務的適用人群、場合、用途,指導使用者科學理性認識和依法適用。制定并公開算法的相關基本原理、目的意圖和運行機制。

1.3 第三定律:生成式算法應不斷提升安全性、可靠性、可解釋性和自主性

(1)應采取有效措施,保障與算法相關的模型、數據、基礎設施、應用等安全,提供安全、穩定、持續的服務。防范對生成式人工智能技術的惡用、濫用。

(2)基于服務的類型特點,應采取有效措施,不斷提升算法的可解釋性和可預測性,提升服務透明度,提高生成內容的準確性和可靠性,確保生成式人工智能始終處于人類控制之下,打造可審核、可監督、可追溯、可信賴的技術。

(3)研發、提供具有輿論屬性或社會動員能力的算法模型,應建立健全算法機制機理審核驗證、科技倫理審查、安全評估、應急處置、投訴舉報等管理制度和技術措施。

(4)鼓勵生成式算法及相關基礎技術的自主創新。應使用具有合法來源的基礎模型,采用安全可信的軟件、工具和數據資源等。

2 生成式算法倫理實踐中存在的難點分析

生成式模型有三大要素:高并發大算力、海量語料數據和復雜集成的算法。其中,Transformer架構生成式算法的主要技術包括詞向量的表示、編碼器-解碼器架構、自注意力機制、預訓練和微調、多任務學習、分布式語義等。基于上述技術特點,逐一分析實踐中可能存在的倫理問題和難點。

2.1 機器幻覺造成信息誤導、歧視偏見,價值觀參差不齊,違背向上向善、公平公正原則

大語言模型的機器幻覺通常是指模型在生成文本時,產生了不符合事實、邏輯或常識的內容。出現機器幻覺的技術原理,主要有4個方面。一是深度學習模型的局限性。模型會學習到數據中的偏見和錯誤信息,并在生成文本時反映出來。二是過度泛化。處理訓練數據中,模型并非真正理解文本含義,而是試圖找到一種簡單方法來生成文本,這些文本在訓練數據中出現頻率較高、但并不符合事實或邏輯。三是優化目標不一致。訓練目標是最大化生成文本的概率,生成文本時,更注重提高文本的概率而非確保其準確性和一致性。四是訓練數據不足。模型無法學習到足夠的信息和知識。數據如存在偏見或歧視,生成內容也可能繼承,如訓練數據中男女職業分布不均衡,生成內容可能也會體現出這種不平衡。此外,超參數設置、自注意力機制過于復雜也可能導致機器幻覺。

機器幻覺問題可能帶來的倫理問題有:誤導公眾,即生成不符合事實、邏輯或常識的內容,可能誤導用戶特別是青少年傳播錯誤信息,甚至影響社會穩定,違背向上向善原則;公平性缺失,即生成帶有偏見歧視的內容,違背公平公正原則,違背生成式算法“第二定律”;僅完成預訓練、SFT的模型,生成內容與人類共同價值觀、所在國家和地區價值觀可能差異較大。此外,考慮到大語言模型的復雜性、海量文本 “千人千面”的生成機制,在人機互動場景中,采用常規“機審+人審”方法對生成內容實現有效過濾監管也存在難度。

2.2 持續追求模型的能力提升與資源耗費、模型可解釋性下降等問題之間的矛盾

自GPT3開始,千億模型時代來臨,國內各企業大模型也基本是千億級別。參數數量通常與模型的大小、復雜性和表達能力有關。更多參數意味著模型可學習到更復雜的特征和模式。雖然更大的模型通常具有更強的表達能力和泛化能力,能處理更復雜的任務,但參數是否越多越好?過多的參數至少存在3個風險。一是過擬合風險。模型可能會記住訓練數據中的噪聲和偏差,導致對未知數據的性能下降。二是模型復雜度太高帶來的風險。模型會難以解釋和調試,遇到問題難以定位和解決。三是訓練和推理的計算資源和時間成本過高。按相關文獻,訓練所需算力可粗略估算為:參數量×批大小/學習率。一個1 000億參數模型訓練所需算力,假設批大小為64,學習率為0.001,訓練所需算力約為16 000 TFLOPS,換算成A100算力約821張卡,事實上考慮硬件冗余、通信開銷,可能要超過千張卡并行算力,即業界所說千億參數模型需要千卡算力。計算資源和時間的增加會造成訓練和推理過程中需要更多能源,這可能導致碳排放量增加,對環境造成負面影響。

不斷追求高能力、大參數可能造成算法模型可靠性、可解釋性下降,違背算法“第三定律”。碳排放量增加會加劇全球氣候變暖,違背造福人類“以人為本”的“第一定律”。

2.3 個人信息、重要數據泄露風險點增多,違背保障人的隱私和合法權益原則

基于筆者在《大語言模型的數據隱私保護難點分析與探索》中的觀點,預訓練收集的海量語料數據中含有大量個人信息和重要數據,深度學習技術提升屬性預測能力使模型成為“社工利器”,各類組織和人群濫用、惡用算法模型實施違法犯罪,此外算法實現、優化、服務中的各類安全風險均可能導致個人信息、商業機密甚至國家安全數據的泄露風險增大,侵犯他人隱私權、名譽權等合法權益。數據來源不合規,可能涉侵犯他人知識產權等。而且因其技術特點,數據隱私保護的“知情同意”和數據收集使用“最小必要”原則面臨難以落地的倫理風險。以上問題對保障人的隱私和合法權益帶來風險,違背了生成式算法“第一定律”。

隱私攻擊、模型越獄、數據中毒、基于指令和非指令的后門攻擊,是當前較為頻繁且重要的針對生成式模型的攻擊類型,均會造成個人信息和重要數據泄露。

2.4 算法的可解釋性、透明性、可追溯性和技術自主性不足,引發信任和責任難點

生成式算法通常被認為是一種“黑盒”模型,內部工作機制和決策過程難以解釋,透明性較差。一方面,生成的內容難以理解和追蹤,當模型生成違規內容時,確定責任歸屬成為難題,目前歸責于服務提供方;另一方面,生成式算法在許多應用場景中,難以解釋其決策依據和結果。如在一些需要解釋決策依據的領域,如醫療診斷、信貸評估、司法判斷等,這個問題會很突出,引發信任和責任問題。由于算法決策過程難以解釋,對其進行審計以確保其合規性和公平性也變得困難。決策結果難以令人信服,可能導致用戶對算法的決策結果產生懷疑和不信任,影響其在實際應用中的接受度和可用性。

盡管生成式算法自2022年以來異軍突起,但其技術成熟度和可靠性仍存在一定局限性。Transformer架構的生成式算法可能會產生模式崩塌問題,導致生成內容缺乏多樣性和質量穩定性。此外,目前,我國大語言模型算法均基于Transformer架構,使用PyTorch框架,訓練算力還主要依賴于英偉達的GPU及其CUDA并行計算架構,很多工程化方法也借鑒國外專業論文成果,自主創新性不足。以上,與生成式算法“第三定律”不符。

3 優化思路與框架3.1 從數據源頭、訓練方法、引入評估3個層面糾偏和降低幻覺,加強價值觀對齊

降低模型的幻覺、提升算法的公平公正,加強價值觀對齊,遵循3個共性思路。

一是對數據去噪糾偏。對訓練語料進行去噪和清洗,去除違法違規風險數據、無意義數據、填充缺失值、文本規范化等,消除潛在的偏差、偏見歧視和不符合價值觀的數據;對文本進行詞頻統計,對圖像進行分類,找出可能帶有偏見歧視的詞匯或圖像,進行替換或刪除;使用數據增強技術提高數據集的多樣性。

二是優化算法,強化學習與對抗。更改學習率、使用正則化技術,優化算法。Transformer架構處理長文本有優勢、可用來提高對價值觀的敏感性和準確性,但生成文本時會出現幻覺,可嘗試使用多模型進行融合。使用強化學習,獎勵符合價值觀的生成結果、懲罰不符合結果來引導模型。使用對抗訓練,即在原始數據上訓練主模型,在另一個對抗性數據集上訓練一個對抗性模型,主模型和對抗性模型迭代優化,減少對特定群體的偏見。這兩種方法可提高模型對不良內容的魯棒性。復旦大學NLP團隊在RLHF階段運用PPO(近端策略優化)算法并優化為PPO-max,讓模型更好地理解深層語義。對齊訓練后,相較SFT模型,生成內容經測試更符合人類價值觀。

三是引入評估指標。針對幻覺問題,可使用困惑度(衡量預測下一個詞時不確定性,評估預測效果)、BLEU評分(比較機器翻譯與人工翻譯間的語法重疊度以評估翻譯質量)、ROUGE評分(比較系統生成和人工生成文章間的共現詞以評估文摘質量)等指標,評估生成效果。針對歧視偏見,可引入群體公平性指標(比較不同性別、種族等群體在模型決策中的表現,如比較男性和女性申請人在招聘中的錄取率差異,如很大,可能存在性別偏見)和反事實公平性指標(比較實際結果和反事實結果之間的差異,如比較一位女性在實際情況下和假設其是男性情況下的決策結果間的差異,如很大,可能存在性別偏見),以確保模型公平對待不同群體。針對生成內容價值觀對齊,可使用安全評估(對標《生成式人工智能服務管理暫行辦法》)第四條要求答題測試)、倫理評分(公平性、透明度、責任感等)、語義相似度評估(計算生成內容與預期價值觀語義相似度)等方法。

因幻覺問題的解決難度大,在共性方法上,目前還有幾類增強方法。一是后處理。使用語義分析、情感分析,識別和修正生成文本中的幻覺問題。二是聯網增強或知識庫檢索。針對一些知識性問題,通過外掛知識庫、增加聯網組件等檢索增強;針對一些涉及國家政權、國家主權等原則問題,建立權威問答庫,防止瞎答造成誤導或意識形態問題。三是領域適應。使用領域特定數據來微調模型,或使用多任務學習來訓練模型,提高其泛化能力。

3.2 降本增效,量力而行,動態平衡參數規模與適用好用之間的關系

發展過程中,追求能力提升與資源耗費、模型可解釋性下降的矛盾,可以通過“降本增效”來解決。一是模型壓縮與加速。通過知識蒸餾和模型剪枝等壓縮和加速技術,在保持性能不變的情況下,降低模型計算復雜度和參數數量,減少資源耗費。二是簡化模型與調整訓練策略。如Transformer-XL等模型在保持性能的同時,簡化了架構,降低模型復雜度,提高可解釋性和訓練效率。使用更好的優化算法、更改學習率可幫助模型更有效地學習。強化多任務學習,提高模型泛化能力。三是數據預處理。數據增強、去噪可幫助模型更好地學習數據規律,提高性能。

對于模型研發、運營方來說,要綜合考慮占有或可獲得的計算資源、訓練時間的承受度、訓練數據量的收集和預處理能力、算力和時間帶來的投資成本,以及模型的應用場景、部署成本等因素,遵循“量力而行”和“適合自己就是就好的”基本原則。

3.3 分類、分級、分場景,加強安全防護和用戶隱私保護,強化全供應鏈安全

針對算法使用、優化、應用中涉及的數據安全和個人信息保護問題,筆者提出:嘗試基于數據分類分級的安全防護,提升針對性;嘗試不同情形下的“推定同意”“明確同意”“再次同意”,提升知情同意的可操作性;嘗試分階段的不同數據匿名化和加密技術手段,提升有效性;強化事后監管,根據泄露的數量等級,予以分級問責與應急處置。

在此基礎上,強化全供應鏈安全也至關重要,包括模型前后端系統、應用的網絡安全,第三方數據提供、標注處理等外包安全和可控性,模型的魯棒性和抗攻擊性等。特別是針對當前模型越獄、后門攻擊、推理攻擊等攻擊方法,通過對模型進行對抗訓練、融合多模型等方法,使用差分隱私、安全多方計算等技術,提高模型的魯棒性,不斷加固模型。

3.4 引入倫理規范,優化技術方法,實施分類定制,促進創新發展

倫理規范上,通過道德準則方法(引入倫理規則和約束條件)、價值敏感設計(在算法需求分析、設計、開發、測試、部署全過程,考慮道德、倫理和社會影響)來引導模型決策,在決策過程中加入倫理評估機制,推動決策過程符合人類倫理價值觀和道德標準;公開模型的倫理規則、約束條件、評估標準等,使決策過程更透明;記錄模型的決策過程、倫理評估結果等,增強可追溯性。此外,開展用戶教育也有必要,使各類用戶了解生成式算法的原理、局限性和風險,以免陷入“烏托邦”或“敵托邦”的極端。

技術方法上,引入注意力機制、模塊化結構、知識圖譜等方法,幫助用戶理解模型在不同任務中如何工作及決策原因;公開模型架構、訓練數據、訓練過程等信息,幫助用戶更好了解模型內部工作機制;記錄模型訓練過程、參數更新、數據來源等,幫助用戶進行故障排查和問題定位。

分類定制指針對不同群體、不同應用場景,開展專用的算法定制和優化。了解不同群體、不同場景的需求,與心理學、社會學專家和領域專家合作,針對性地設計和優化算法,并加強用戶教育。如針對未成年人,設計算法要考慮加強內容過濾、時間管理和教育支持;針對老年人,提升易用性、幫助健康監測和咨詢、幫助其與家人朋友聯系社交;針對消費者,算法優化價格比較、評價分析、售前售后服務等保障;針對女性,要保障性別公正、提供女性健康建議、職業發展支持等。在重要領域,行業主管部門牽頭制定實施合規和倫理指引。醫療領域,算法要保護患者隱私、提升診斷和治療建議的準確性,以免誤導醫生或患者,可使用特征重要性分析方法,幫助理解不同特征對模型預測結果的貢獻程度,如疾病預測場景中,可找出對疾病預測最重要的特征,為醫生診斷提供參考。金融領域,提高算法合規性,在信貸、保險等產品定價審批中的公平性。可使用反事實解釋方法幫助理解算法決策過程,如在信貸審批場景,告訴申請人為什么貸款申請被拒絕,由哪些因素導致。司法領域,要提升算法合法合規性,提高輔助法官決策的公正性,減少誤判概率以確保司法公正。教育領域,算法要保護學生隱私、服務不同學生的學習需求和進度、保障資源分配公平,還要避免過度依賴,以免影響學生自主學習能力和發展。以上各場景,算法都要提高可解釋性,以便不同用戶(醫生和患者,用戶與監管部門等)理解算法決策過程。

在全球激烈競爭的格局下,生成式人工智能領域不發展就是最大的不安全。因此,目前,我國對生成式人工智能服務采取“包容審慎”監管原則,對技術自研自用基本沒有約束限制;鼓勵算法、框架、芯片及配套軟件平臺等基礎技術的自主創新,參與國際規則標準制定。

4 可能仍存在的難點和困境

一是機器幻覺問題無法根治。按目前語言大模型業界共識,即使采取強化數據清洗、改進模型架構和訓練策略、引入檢索增強和事實校驗等各類優化方法,仍只能將生成內容的準確性、可靠性最高提升到約80%。剩下的20%,是現階段技術的盲區。

二是評估審查規則、量化指標存在局限性。不同利益相關方在算法倫理評估和審查中可能持有不同價值觀和道德觀,可能導致各方在評估審查規則、指標等方面難以達成共識。前文所提各類評估指標多數是評價算法模型性能。因商業驅動,業內已盛行通過針對性“刷榜”來提升自家模型“考試成績”。但是,在生成內容的安全性、價值觀符合性方面,目前并沒有成熟的量化評估或審查機制,特別是倫理問題的復雜性,可能很難用指標來評估。

三是評估審查與算法迭代速度間的矛盾與平衡難點。生成式算法模型的倫理審查和安全評估涉及制定審查評估規則、多方參與、確定指標、將評估審查納入整個生命周期,持續優化、反饋循環等流程,除了技術、方法的難點外,可能帶來時間、人力、資金等資源限制和投入,與生成式廠商們以OpenAI為目標、持續搞算法模型“煉丹”迭代升級之間存在矛盾。要真正做到發展和安全的動態平衡、相得益彰,可能是一個長期復雜的過程。

因此,需要通過不斷完善生成式人工智能的監管機制和倫理框架,推動產業鏈相關主體共同發揮作用,隨著技術的不斷發展,持續探索與完善。

5 結束語

本文聚焦生成式人工智能的生成式算法,結合相關法律法規、倫理規范,提出“生成式算法三定律”(三大定律,12條指引)的倫理原則。同時,結合其技術特點,分析算法倫理在實踐中存在的四大難點,并初步提出一些解決和優化的框架和思路。然而,因各類原因,這些優化框架還存在一些倫理困境,需要多方合力,長期探索、完善。

編 輯:章芳
飛象網版權及免責聲明:
1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業信息,并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發之日起30日內與本網聯系,我們將第一時間予以處理。
本站聯系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯系方式,進行的“內容核實”、“商務聯系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
相關新聞              
 
人物
中興通訊董事長李自學:算力筑基、 AI 啟智,共迎數智化新紀元
精彩專題
通信產業2024年業績盤點
3·15權益日 | 共筑滿意消費 守護信息通信安全防線
聚焦2025全國兩會
2025年世界移動通信大會
CCTIME推薦
關于我們 | 廣告報價 | 聯系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網 CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業務經營許可證080234號 京公網安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經書面許可,禁止轉載、摘編、復制、鏡像