▲ 图源 Arxiv

据悉,Nightshade 工具是一种专从提示词入手的攻击手腕,号称“手腕相对目前‘在提示词中加入触发字’的后门攻击法更大略”,不需参与模型的演习及支配等过程。

Nightshade 工具的浸染,紧张是轻微修正图片内容,当这些被修正的图片内容成为 AI 模型演习数据后,全体 AI 模型就有可能被彻底毁坏。
黑客选择了 Stability AI 的 Stable Diffusion V2、SDXL 及 DeepFloyd 验证攻击效果。

测试显示,只须要少量“下毒样本”就扰乱 AI 模型的文生图模型。
黑客利用不到 100 张经由修正的“狗的照片”,便污染了 SDXL 模型已经养成的“狗”观点,使该模型在接管外界输入“天生狗的图片”提示后,反而天生了猫的图片。

▲ 图源 Arxiv

此外,Nightshade 攻击并非针对单一实体“观点”,虽然黑客仅仅用一些“狗的照片”试图毁坏模型对付“狗”的观点,但全体模型的生图结果,都会被彻底毁坏。

可令AI模型输入狗生成猫黑客展示Nightshade对象

▲ 图源 Arxiv

IT之家同时创造,黑客声称,经由 Nightshade 工具“下毒”的图片难以辨别,由于该工具紧张影响演习数据集的“特色空间”。

Nightshade 是属于内容创作者及持有者的工具,是对待‘不尊重版权声明’、或‘故意绕过 do-not-scrape / crawl opt-out’的 AI 从业者的强大武器。