生成式 AI 超酷,但如果使用不當也可能很危險,這就是為何目前市面上的所有 AI 模型都被訓練拒絕某些危險的指令請求。如果你有點小聰明,並使用更具創意的提問方式繞過限制,也許能夠說服 AI 無視它的設定原則。現在 Google 希望能好好地教育自家 Bard ,並且向找到漏洞的人提供獎勵。
Google 擴大漏洞獎勵計劃,找到 AI 弱點重重有賞
Google 的漏洞獎勵計畫主要獎賞那些能夠在其軟體(包含作業系統和應用程式)的程式碼中找到漏洞和漏洞的使用者,該計畫正在擴大到 Bard 和有問題的提問。如果你碰巧夠聰明、會講話,能夠以迂迴的方式提問讓 Bard 做一些它原不應該做的事情(稱作 Prompt Injection Attack,提示注入攻擊),Google 可能會付給你一筆獎勵金。VRP 還涵蓋了可在 Bard 上執行的其他類型的攻擊,例如訓練數據提取,成功讓 AI 為你提供敏感數據,例如個人資訊和密碼等。
Google 已經有一個不同的回報管道用於與事實不至正確或奇怪的回答等(但沒有獎勵)。該公司只會為可能被駭客用於惡意目的的東西付費,所以,如果你設法說服 AI 說髒話、給你 Windows 金鑰,或者說它會殺了你,這些可不在 Google 的獎勵計劃中。Google 還表示,它不會為與版權問題或非敏感數據提取相關的問題付費,但除此之外,根據實際情況,你可能會從報告中獲得數千美元不等的獎金。
透過將這類問題視為漏洞並將其納入賞金計劃,Google 希望能夠大大加強其 AI,並使其盡可能遵守道德準則,於是這次花重本以獎金鼓勵大家來找碴。向 AI 模型給出提示並查看它們是否會暴露出 AI 模型中的弱點與可具有漏洞的代碼,識別提問並瞭解如何利用它的各種不同方式。如果你對此感興趣,請務必查看 Google 關於報告 AI 產品問題的指南,以便瞭解哪些在獎勵範圍內,確認好後可到 Google 的 Bug Hunting 網站提報。