我在 2020 年開始投入自主網路代理程式研發時,這類系統在現實世界的部署時間表仍以「數十年」來衡量。當時,這些系統被視為長遠的賭注 – 雖然有趣,但對於近期的應用程式來說仍然算是邊緣性的小幅改進。
然後,情況發生變化。
儘管生成式 AI (GenAI) 並非單一事件,但它引發一連串持續不斷的進展浪潮,直到今天仍在加速推進,讓開發時間表不斷壓縮。這不只是調整目標的問題;GenAI 所帶來的浪潮正無情地推翻舊基準,並以我們前所未有的速度,重新定義可能的周邊。過去僅屬於長期研究範疇的功能,如今正以前所未有的速度被整合進實際環境。
令人震驚,但並不意外的是代理程式系統正被迅速嵌入各種場情境 (從企業工作流程、決策管道,甚至是關鍵基礎結構),而這一切往往發生在我們尚未確立相關治理與安全機制之前。2020 年彷彿已是上個世紀的事,畢竟我們現在不再是為代理式 AI 的到來做準備,而是應對其持續且快速的演進。
一篇針對移動目標的白皮書
我參與撰寫的研討會報告達到安全的 AI 代理程式生態系統,正是為了解這場加速浪潮而展開的一項跨機構合作成果。這份白皮書是與 RAND、Schmidt Sciences,以及來自業界、學術界與政府部門的代理式 AI 領域頂尖專家合作撰寫的。它並未提供解決所有問題的萬靈丹,而是提出一種全新的思考方式與應對策略,來重新看待並處理代理式 AI 所帶來的挑戰與機遇。
這份白皮書的核心內容闡述 AI 代理程式的三個基本安全支柱,並指出隨著這些系統的發展,我們目前的假設與基礎結構可能出現問題的關鍵環節。這份白皮書不只是單純承認目前的現實,更是在主張一種深刻的想法轉變:我們必須意識到,代理程式系統的時代已經來臨。因此,保護這些系統不再是明天的問題。這是一項緊迫的挑戰,今日因創新速度的日益加快、規模的擴大、早期採用者面臨的不均風險,以及攻擊能力與防禦目標之間的明顯不對稱,而變得更加嚴峻。
保護 AI 代理程式的挑戰之一是,這些系統看起來或運作方式不像傳統軟體。它們具有動態性,不斷演進,且越來越能在極少監管下自主執行決策。有些是專門設計來執行自動化任務,例如排程或分類電子郵件;而另一些則逐步邁向在高風險環境中實現完全自主行動。無論哪種情況,我們用來保障傳統應用程式安全的架構都不足以應對。我們面臨的問題不僅僅是已知弱點的變化,而是本質上全新的挑戰。攻擊範圍已經轉變。
AI 代理程式安全性的三大支柱
這種思考模式的轉變,安全形勢才圍繞三個核心重點進行組織:
- 保護 AI 代理程式免受第三方入侵:如何保護 AI 代理程式本身免受外部攻擊者的接管或操控。
- 保護使用者和企業免受代理程式本身的影響:如何確保 AI 代理程式,即使按預期操作或發生故障,也不會對其使用者或所屬的企業造成傷害。
- 保護重要系統免受惡意代理程式的侵害:如何防禦那些被故意設計並部署以造成破壞的惡意 AI 代理程式,保障重要基礎結構與系統的安全性。
這些類別並非一成不變,它們是能力與威脅成熟度連續頻譜上的各個點。其會隨著時間和環境的變化而演進和發展。如今,大多數部署代理程式的企業都在應對前兩個問題。但第三個 – 惡意、自主的對手,正日益成為重大威脅。國家級勢力是最早投入自主網路代理程式的單位。1他們可能不會孤軍奮戰太久。
因此,應對這個充滿強大且廣泛自主威脅的新時代,所需要的遠遠不只是對現有防禦措施進行漸進式改進。這需要我們專業社群在安全領域進行根本性的合作與創新想法轉變。
從歷史上看,AI 研究人員與網路安全專家常常各自為政,對風險和架構抱持著不同的假設。然而,代理式 AI 安全性這一複雜前線領域,需要兩者攜手合作,因為單靠任何一方都無法獨自應對這些巨大挑戰,因此深入且持續的合作非常重要。雖然針對這個領域的通用協議與全面最佳實務仍在發展中,但目前缺乏有效、可直接使用的安全代理程式統包產品的觀點,坦白說,已經過時了。複雜且可部署的解決方案現在為關鍵代理程式系統提供重要的專門防護,顯示出實質性的進展。這進一步凸顯了對適應性、多層次安全策略的迫切需求 – 涵蓋模型來源追蹤、強健的隔離措施,以及具備彈性的人工介入控制 – 這些策略必須與代理程式本身一樣快速演進。
可及的介入措施
儘管強大且不斷發展的產品解決方案在降低代理式 AI 帶來的即時營運風險方面變得越來越重要,但要達到全面且長期的安全性,仍需全產業投入資源,建立基礎能力與共同認知。有幾個這樣的關鍵方向,其與產品創新相輔相成,而且在我們的集體能力範圍之內,值得我們集中精力去努力。
我們設想一種「代理程式材料清單」,其概念源自「軟體材料清單」,旨在提供對代理程式元件的完整可視性,例如其模型、訓練數據、工具和記憶體等。然而,其功能可行性目前面臨一些障礙,例如缺乏通用的模型識別碼系統,這對於這種透明度極為重要。
此外,標準化的預部署測試平台可以達到在代理程式投入生產環境之前,進行可擴展且基於情境的評估。此外,像 MCP (模型上下文通訊協定) 和 A2A (代理程式對代理程式通訊協定) 這類通訊協定正在興起,但鮮少有從一開始就將安全性納入考量的。然而,即便從一開始就納入安全措施,這些新興代理程式系統普遍存在的「未知的未知數」,仍表示這些通訊協定需要經過嚴格且持續的評估,才能維持其完整性與安全性。
白皮書試圖探討的一個關鍵挑戰是:代理程式的記憶雖然對於其學習、改進,以及避免重蹈覆轍非常重要,但同時也是一個可能遭受惡意篡改的重大弱點。這項策略包含使用「啟動時複製」或任務特定的代理程式執行個體。在此模型中,專為特定操作任務或限時互動而設計的代理程式會將其活躍的工作記憶視為短暫記憶。當這些執行個體的特定工作或工作階段完成後,即可停用這些執行個體,新的作業將由從安全可靠的基準初始化的新執行個體處理。
這項做法旨在顯著降低單一工作階段中可能發生的持久性記憶體損壞或篡改的殘留影響的風險。然而,最重要的是,這樣的系統必須經過縝密設計,以確保代理程式的核心基礎知識和長期學到的經驗教訓不僅得到安全維護並防止被篡改,還必須能夠有效且安全地供這些較為短暫的操作執行個體存取與參考。雖然以這種方式管理作業狀態並非針對所有記憶體相關威脅的全面解決方案,但它代表提升代理程式安全性和強大遏制所需的創造性系統層級思維。
共同承諾的呼籲
最終,確保代理式 AI 的安全,不會來自於任何單一的突破,而是需要持續且多方利害關係人共同努力的成果。這其中包括研究人員、政策制定者、安全從業人員以及業界領導者,跨領域協力合作。威脅既來自技術層面,也來自基礎層面。我們正試圖保護那些尚未完全理解的系統。但如果過去幾年有一件事已經明確,那就是:等待情勢完全明朗再採取行動,往往為時已晚。
代理式 AI 的發展表示我們產業在廣泛採用的同時,也正在同步開發關鍵的安全防護措施。這種同步發展本質上並非危機,而是對集體責任的明確呼籲。我們在這項努力中的成功,取決於整個產業共同承諾以透明度、嚴格標準和統一願景來建立這些基礎要素,打造值得信賴的 AI 生態系統。
閱讀完整白皮書:達到安全的 AI 代理程式生態系統。
1– 摘自自主網路防禦第二階段,新興科技與安全中心,2024 年 5 月 3 日。