一项由Anthropic联合英国人工智能安全研究所及艾伦图灵研究所开展的重要研究揭示,仅仅250个被恶意“投毒”的文档,就足以在大型语言模型(LLM)中成功植入后门,且攻击效果不受模型参数规模影响。打破固有观念:极少量污染数据即可操控模型行为研究团队对从6亿到130亿参数的多种模型进行了测试,结果表明,即便使用更高质量、更纯净数据训练的更大模型,其抵御此类攻击的能力并未提升——所需中毒样本数量始终维持在同一水平。这一发现推翻了过去普遍认为攻击者必须掌控大量训练数据才能实施有效攻击的假设。实...
一项由 Anthropic 联合英国人工智能安全研究所及艾伦图灵研究所开展的重要研究揭示,仅仅 250 个被恶意“投毒”的文档,就足以在大型语言模型(LLM)中成功植入后门,且攻击效果不受模型参数规模影响。
打破固有观念:极少量污染数据即可操控模型行为
研究团队对从 6亿 到 130亿 参数的多种模型进行了测试,结果表明,即便使用更高质量、更纯净数据训练的更大模型,其抵御此类攻击的能力并未提升——所需中毒样本数量始终维持在同一水平。这一发现推翻了过去普遍认为攻击者必须掌控大量训练数据才能实施有效攻击的假设。
实验中,这些中毒样本仅占总训练数据的 0.00016%,却仍能显著改变模型输出行为。研究人员共训练了72个不同配置的模型,并分别尝试使用100、250和500份中毒文件进行攻击。数据显示,250份已足够在所有规模模型中稳定建立后门,进一步增加至500份并未增强攻击成功率。
安全可控的实验设计:触发词设为“SUDO”
本次研究采用的是“拒绝服务”型后门机制:当输入中出现特定触发词“SUDO”时,模型便会生成一段随机、无意义的乱码。每个中毒文档结构均为正常文本 + 触发词 + 无关内容,以此训练模型将该词与异常响应关联。
Anthropic 特别指出,此次测试所构建的后门属于低危害、局限性漏洞,仅导致模型输出无效代码,不会对高级系统造成实质性威胁。目前尚不确定此类方法是否可扩展用于更危险的攻击场景,例如诱导生成恶意代码或规避安全审查。已有初步证据显示,实现复杂攻击的技术门槛显著更高。
主动公开:为防御体系提供预警
尽管存在被恶意利用的风险,Anthropic 仍决定公开研究成果,认为这有助于整个 AI 行业提升防御能力。他们强调,数据中毒是少数几种防御方具备优势的攻击类型,因为训练数据和最终模型均可被审计与检测。
研究团队提醒,不能因某些攻击看似不可能就放松警惕。即使仅有

极少量持续存在的污染样本,AI 系统的安全机制也必须持续有效。同时,攻击者依然面临获取训练数据权限以及绕过多层部署防护的实际障碍。
相关推荐:
网页数据轻松导入Excel,提升工作效率的必备技能,平定县写作业的地方ai自习室
引流变现案例分享:我是如何打造一个年赚百万的社群的!
SEO与SEM:开启数字营销的新篇章
怎么用个人社交账号来进行推广赚钱?
在线翻译转换器:语言障碍轻松突破,跨国沟通更畅通,中秋贺卡ai
AI热门软件,未来科技的钥匙
SEO优化方案及报价:为您的网站带来可持续的流量增长
GPTMap下载:智能地图时代的全新体验,国产刘亦菲ai在线
如何不花钱也能做好app推广运营?
提升网站SEO效果,使用Sitemap死链检测工具避免搜索引擎惩罚,文章续写ai
SEO免费教程:轻松搜索引擎优化技巧,提升网站排名!
WordPress文章链接文本自动加超链接,提升用户体验与SEO效果,鸿蒙ai识字
360ai:智能引领未来,赋能数字化变革
揭秘引流项目之百度贴吧诱导引流项目的玩法和思路!
360ai答题-赋能教育,开启智能学习新纪元,imba ai 下载
SEO好吗?助力网站成功的关键之道,网站优化方案范文怎么写
SEO包含的秘密:让你的网站轻松排上首页,新媒体营销推广方案目录
Chatwoot安卓版本下载,让客户支持更高效!
AI生成的文章是原创吗?揭示背后的真相与未来趋势,延边州智能ai论文写作
SEO导流:如何通过精准优化实现网站流量大爆发,网站优化优化怎么做
ChatGPT怎么找梯子:突破网络限制,轻松访问AI助手的终极指南,ai美发设计
AI助手推进:智能化时代的企业革命,闹钟ai
免费在线AI写作生成器,助你轻松创作高质量内容,AI小创作
自动生成文章的AI软件,助力内容创作的未来
社交app推广引流的6大方式
月入3w的推广方法,如何操作?
ChatGPT解除提问次数限制,让你的AI体验更畅快,不参加ai面试有人吗
OpenAI更改电话号,带你轻松搞定账户安全升级,渊亭AI中台
360AI写作怎样?助力创作的新风尚,ai能否打开tpk文件
app软件开发公司:开发好app产品的几点注意事项