仅花费60美元就能破坏0.01%数据集 AI模型性能显著降低

2023-02-26 16:15:50 来源:网络

编辑:袁铭怿

网络规模的数据集很容易受到低成本的投毒攻击,这种攻击只需要一小部分被破坏的样本就可以使整个模型中毒。

用于训练深度学习模型的数据集已经从数千个精心策划的示例增长到具有数十亿个从互联网自动爬取样本的网络规模数据集。在这种规模下,通过人力管理来确保每个示例的质量是不可行的。到目前为止,这种数量高于质量的权衡是可以接受的,一方面是因为现代神经网络对大量标签噪声具有很强的适应力,另一方面是因为对噪声数据的训练甚至可以提高模型在非分布数据上的效用。

虽然大型深度学习模型对随机噪声具有一定的包容性,但训练集中即使是极少量的对抗性噪声(即中毒攻击)也足以在模型行为中引入针对性错误。先前研究认为,在缺乏人力管理情况下,对现代深度学习模型的中毒攻击是可行的。然而,尽管存在潜在的威胁,目前看来,还没有发生过涉及网络规模数据集中毒的真实攻击。部分原因可能在于,之前的研究忽略了一个问题:对手如何确保他们损坏的数据会被纳入一个网络规模的数据集。

本文,来自谷歌、苏黎世联邦理工学院等机构的研究者撰文介绍了两种新的数据中毒攻击方式:

分割视图数据中毒(Split-view data poisoning):第一个攻击目标是当前的大型数据集(例如 LAION-400M),并利用研究者在收集时看到的数据可能与最终用户在训练时看到的数据不同(显著且随机)这一事实。

Frontrunning 数据中毒:第二种攻击利用了流行的数据集,比方说,维基百科的 snapshot。这种中毒方式是可行的:因为即使内容审核人员在事后检测并恢复恶意修改,攻击者的恶意内容也会持续存在于训练深度学习模型的 snapshot 中。

研究在 10 个流行的数据集上探索了这两种攻击的可行性。结果表明,即使对低资源攻击者来说,这些攻击也是可行的:只需 60 美元的成本,就可以毒害 LAION-400M 或 COYO-700M 数据集的 0.01%。

为了对抗这些中毒方式,本文将介绍两种防御措施:

完整性验证:通过为所有已索引的内容分发加密哈希来防止分割视图中毒;

基于时间的防御:通过随机数据快照和引入网络规模数据集的顺序来防止 Frontrunning 数据中毒。

除此以外,本文还将讨论这些防御措施的局限性以及未来的解决方案。

两种攻击手段

分割视图中毒

本文介绍的第一种中毒方式利用了这样一个现状:由维护者发布的分布式数据集的索引不能被修改,但数据集中 URL 的内容可以被修改。

该研究观察到:有时域名会过期,一旦过期,任何人都可以购买,因此域名过期在大型数据集中很常见。通过拥有域名,将来下载的数据可能都会有毒。

该研究还注意到,攻击者经常购买过期域名,以获取这些域名附带的剩余信任。

研究表明,分割视图中毒在实践中是有效的,因为大多数网络规模数据集的索引在首次发布后很长时间内都保持不变,即使在很大一部分数据过时之后也是如此。而且关键的是,很少(也没有现代)数据集包含任何形式的下载内容的加密完整性检查。

Frontrunning 数据中毒

第二种中毒方式将分割视图中毒的范围扩展到攻击者无法持续控制数据集索引的 web 资源的设置。相反,在恶意修改被检测到之前,攻击者只能在短时间内(可能仅需几分钟)修改 web 内容。

Frontrunning 攻击依赖于这样一个事实:在某些情况下,对手可以准确地预测何时访问 web 资源,并将其包含在数据集快照中。因此,攻击者可以在管理员收集快照之前毒害数据集内容,从而领先于稍后将恢复恶意编辑的内容管理员。因此,攻击者可以预测任何维基百科文章的快照时间,精确到分钟。

攻击结果

表 1 最右边的一列显示了研究结果。即使是最古老和访问频率最低的数据集,每个月也至少有 3 次下载量。因此,在追踪数据的 6 个月里,有超过 800 次下载被本文所介绍的攻击方式所毒害。不出所料,相较于旧的数据集而言,较新的数据集的请求量更高。因此,不同的数据集为攻击者提供了不同的权衡:更新的数据集拥有更小比例的可购买图像,但攻击范围可以触及更多更脆弱的客户端。

衡量攻击成本。最直接的问题是,这种攻击方式能否在实践中实现,其主要限制是购买域名的货币成本,研究使用 Google Domains 在 2022 年 8 月报告的成本来衡量。图 1 显示了数据集中可以由攻击者控制的图像的比例,作为他们预算的函数。研究发现每个数据集中至少 0.01% 的数据可以被控制,每年花费不到 60 美元。

通过监控研究购买的域名中请求的 URL,研究人员绘制了每次 URL 被请求的时间,由源 IP 进行颜色编码,并可以直接读取几十个 Conceptual 12M 的用户。具体见图 2。

据保守分析,在没有任何其他防御措施的情况下,目前可以给 6.5% 的维基百科文档下毒。

,仅花费60美元就能破坏0优秀团员事迹 .01%数据集 AI模型性能显著降低

相关:

近1600次地震,竟由它引起!“灾难性”影响当地时间24日,荷兰议会发布一份关于荷兰北部格罗宁根气田开采的调查报告,称气田开采为荷兰政府和油气巨头带来了数千亿欧元的利润,但同时引发了上千次地震,对当地产生了“灾难性”的影响。自动播放荷兰议会的报告指出,过去60年来,格罗宁根气田产生的利润达4290亿欧元,其中3630亿欧元流入荷兰财政部,660亿欧元流入共同经营气田的能源巨头壳牌和埃克森美孚。与此同时,尽管格罗宁根并不位于地震带上,但在这60年间,当地却..

挺进深远海!中国首艘双模式高速风电运维船顺利出海IT之家 2 月 26 日消息,据三峡集团官方消息,国内首艘 30 米级 CAT-SWATH 双模式高速风电运维船 2 月 23 日于江苏省如东县首次出海。三峡集团表示,该运维船针对传统双体船在复杂海况下适航性差、出航率低的缺点进行了改良,在航速和靠泊能力方面实现了新突破,标志着我国海上风电运维产业向个性化、高质量发展迈出重要一步。▲ 图源:三峡集团数据显示,该运维船总长 32.4 米,型宽 11.6 米,排水量约 200 ..

新能源巨头比亚迪两年“圈芯”近20家集微网消息,比亚迪2022年官宣停止燃油汽车的整车生产,这家新能源巨头自此成为全球首家“断油”车企。这一年,比亚迪产销数据一路向好,全年汽车的销量达186.3万辆,产量为187.7万辆,为全球新能源汽车销量第一。同时,比亚迪走出“高营收低利润”的怪圈,2022年净利润规模首次突破百亿元大关,预计达到160亿元-170亿元,同比增长425.42%-458.26%。投资版图电动化与智能化时代,与燃油车相比,新能源汽车与半导体的联系更为紧密..

为应对市场需求下滑 传AMD削减台积电5nm处理器产能2月25日消息,据外媒Wccftech 报导,市场传闻AMD已经将2023年第二季台积电5nmEPYC Genoa CPU晶圆订单量减至仅3 万片,原因不是5nm EPYC Genoa CPU 销售不佳,而是整个服务器市场需求减少。资料显示,AMD EPYC Genoa CPU采用基于台积电5nm制程 Zen 4 核心架构, 拥有高达 96 个核心和 192 个执行单元,并封装于 12 个 CCD。因 Genoa CPU 的优秀设计,使得 AMD 预估 2023 年可拿下 20% 服务器市场..

PS5 Pro要来!索尼发布会将揭晓“PS5的第二阶段”近日,知名爆料人Jeff Grubb透露,索尼将在E3期间举办一场PlayStation发布会,并将有重大内容宣布。据这位爆料人透露的信息,这场发布会上,索尼将会介绍“PS5的第二阶段”,这不仅将包含大量尚未露面的第一方游戏大作,还狠可能包含备受玩家关注的PS5半代升级版。从目前已知的信息来看,如果索尼确实打算公布与PS5 Pro相关的消息,那么这款新机型大概率会在核心性能、体积与散热系统上做出优化,但在SSD等方面,大概率不会有..

美国390亿美元的芯片援助 不是为了扶持陷入困境的芯片厂商在乔·拜登总统的政府准备接受 390 亿美元资金以启动美国微芯片生产的请求之际,他的商务主管强调该计划的重点是加强国家安全,而不是提振陷入困境的芯片制造商。商务部长吉娜·雷蒙多 (Gina Raimondo) 表示,美国下周二将公布根据去年通过的《芯片与科学法案》资助的制造部分的申请,并将在其选择标准中“非常明确”。“我预计会有很多失望的公司觉得他们应该有一定数额的钱。现实是我们在这里的投资回报是我们国家安全目..

郭明錤:苹果将于2025年推出低端VR头显集微网消息,天风国际证券分析师郭明錤在最新调研报告指出,苹果计划在2025年推出“低端”和“高端”的第二代AR头显。据CNBC报道,第一种型号预计售价约为3000美元,这意味着郭明錤关于未来“低端”型号的报告可能预示着更实惠的版本即将推出,将有助于苹果吸引更庞大的用户群。日前日媒报道称,一位了解开发情况的高管表示,“苹果的第一代AR设备将非常昂贵,而且真的只能吸引那些热情的科技发烧友或高端客户。但苹果希望在并行..

全球最大笔记本曝光:重量45公斤 配备43英寸屏幕笔记本电脑的便携性是其主要的卖点之一,但有些人却想要打造一台超大尺寸的笔记本电脑。近日,YouTube 频道 Evan and Katelyn 就发布了一期视频,展示了他们制作的全球最大的笔记本电脑,这台笔记本电脑配备了 43 英寸的屏幕,重达 45 公斤。视频中,Evan 和 Katelyn 介绍了他们制作这台巨型笔记本电脑的过程和细节。他们首先选择了一台英特尔 NUC11 主机作为这台笔记本电脑的核心部件,并在网上购买了一块 43 ..

iPhone存在重大漏洞!歹徒靠“偷看”搬空银行存款众所周知,iPhone允许使用手机密码重置苹果帐户密码,然而这被用来方便健忘人士的贴心设计却被别有用心之人利用。据媒体最新报道,近期,越来越多iPhone用户向警方报案时称,手机被盗或被抢后,很快就进不去自己的苹果帐户,银行里的钱立即被盗。报道称,歹徒只需采用偷看等手段窃取手机密码,然后偷走手机,就可以在几秒内篡改用户Apple ID相关联的密码,然后盗走金融账户里的钱财。前纽约警局警探Alex Argiro对媒体表示,过..

国内有没有?在法国订购小米13系列免费赠送43英寸小米电视小米 13 系列将于 2 月 28 日在法国开启预售,预购用户有机会免费获得一台价值 449 欧元(约合人民币 3296 元)的 43 英寸小米电视 P1。这是继小米在欧洲市场预售小米 12T Pro 并赠送 Redmi Pad 后,又一次大手笔的促销活动。据可靠消息源 @billbil_kun 在推特上透露,他已经获得了小米的官方宣传图,并在最新推文中分享了出来。从图片上可以看到,小米电视 P1 的外观设计十分简约时尚,拥有超窄边框和全..