- 惡意提示保持不可見,直到圖像縮減顯示隱藏的說明
- 攻擊是通過利用AI重新示例上傳圖像來起作用的
- 雙子插值可以從專門精心製作的圖像中揭示黑色文本
隨著人工智能工具越來越多地集成到日常工作中,其附加的安全風險也在向新的方向發展。
研究人員在 痕跡 已經證明了一種方法,其中惡意提示隱藏在圖像中,然後在大型語言模型處理過程中揭示。
該技術利用了AI平台如何降低圖像以提高效率,揭示了以其原始形式看不見的模式,但對算法曾經調整大小的算法可以清晰。
縮小圖像中的隱藏說明
這個想法建立在德國Tu Braunschweig的2020年紙上,這表明圖像縮放可以用作機器學習的攻擊表面。
一堆痕跡顯示了製作的圖像如何操縱系統,包括雙子座CLI,Vertex AI Studio,Android上的Google Assistant和Gemini的Web界面。
在一種情況下,在未經用戶批准的情況下,將Google日曆數據偷偷化為外部電子郵件地址,突出了威脅的現實潛力。
該攻擊利用插值方法,例如最近的鄰居,雙線性或雙子性重新採樣。
當故意準備圖像時,降尺度會引入揭示隱藏文本的混疊文品。
在一次演示中,黑暗區域在雙色重新採樣時發生了變化,以顯示隱藏的黑色文本, LLM然後解釋為用戶輸入。
從用戶的角度來看,似乎沒有任何異常發生。然而,在幕後,該模型遵循嵌入式說明以及合法的提示。
為了說明風險,鑽頭創建了“變形器”,這是一種開源工具,可為不同的縮放方法生成此類圖像。
這表明,儘管該方法是專門的,但如果缺乏防禦能力,其他人可能會重複。
攻擊提出了有關多模式AI系統信任的問題,因為許多平台現在依靠它們進行例行工作,並且簡單的圖像上傳可能會觸發意外的數據訪問。
如果以這種方式刪除私人或敏感的信息,就會出現身份盜用的危險。
由於這些模型通常與日曆,通信平台或工作流程工具鏈接,因此風險擴展到更廣泛的環境。
為了減輕這種情況,用戶需要限制輸入尺寸,預覽縮小的結果,並需要明確確認敏感的工具調用。
諸如防火牆之類的傳統防禦措施不是為了識別這種形式的操縱而製定的,留下了攻擊者最終可能利用的差距。
研究人員強調,只有分層安全套件和更強大的設計模式才能可靠地限制此類風險。
研究人員說:“然而,最強大的防禦是實施安全的設計模式和系統防禦,以減輕超出多模式及時注入的有影響力的迅速注入。”
您可能還喜歡
#黑客發現了一種偷偷摸摸的方式來竊取數據通過隱藏大語模型處理的圖像中的惡意提示