Meta 推出 Purple Llama:增強生成式 AI 安全性

Purple Llama 是 Meta 於 12 月 7 日宣布的一個重大項目。其目標是提高生成式人工智慧模型的安全性和基準測試。該計劃強調使用開源工具來幫助開發人員在部署之前評估和增強其生成式人工智

Purple Llama 是 Meta 於 12 月 7 日宣布的一個重大項目。其目標是提高生成式人工智慧模型的安全性和基準測試。該計劃強調使用開源工具來幫助開發人員在部署之前評估和增強其生成式人工智慧模型的信任度和安全性,代表了人工智慧領域的重大進步。

在Purple Llama 傘式專案下,開發人員可以透過建立開放式AI 模型來提高生成式AI 模型的安全性和可靠性- 來源工具。許多人工智慧應用程式開發商,包括AWS 和Google Cloud 等大型雲端供應商,AMD、Nvidia 和Intel 等晶片製造商,以及微軟而聞名,正在與Meta 合作。此次合作的目標是提供評估模型安全性和功能的工具,以幫助研究和商業應用。

Cyber​​Sec Eval 是 Purple Llama 所展示的主要功能之一。該工具集旨在評估生成軟體的模型中的網路安全風險,例如對可能具有攻擊性、暴力或描述非法活動的內容進行分類的語言模型。透過 Cyber​​Sec Eval,開發人員可以評估 AI 模型產生不安全程式碼的可能性,或透過基準測試幫助使用者發動網路攻擊的可能性。這是訓練模型來產生惡意軟體或執行可能產生不安全程式碼的操作,以尋找和修復漏洞。根據初步實驗,大語言模型在百分之三十的情況下會推薦易受攻擊的程式碼。可以重複這些網路安全基準測試,以驗證模型修改是否可以提高安全性。

除了Cyber​​Sec Eval 之外,Meta 還發布了Llama Guard,這是一個用於文本分類訓練的大型語言模型。它旨在識別並消除具有破壞性、攻擊性、露骨性或描述非法活動的語言。 Llama Guard 讓開發人員可以測試他們的模型對輸入提示和輸出答案的反應,刪除某些可能導致產生不正確材料的內容。這項技術對於防止生成式人工智慧模型無意中創建或放大有害材料至關重要。

Meta 借助 Purple Llama 採取雙管齊下的方式來保障 AI 安全,同時解決輸入問題和輸出元素。這種包羅萬象的策略對於減少生成式人工智慧帶來的困難至關重要。 Purple Llama 是一種協作技術,採用進攻性(紅隊)和防禦性(藍隊)策略來評估和減輕與生成人工智慧相關的可能危險。道德人工智慧系統的創建和使用在很大程度上取決於這種全面的觀點。

總而言之,Meta 的Purple Llama 專案是生成式AI 領域向前邁出的重要一步,因為它為程式設計師提供必要的資源來確保其人工智慧模型的安全性。由於其包羅萬象的合作方法,該計劃有可能為認真創造和使用生成式人工智慧技術建立新的基準。

收藏我們

搜索