新闻中心News

Anthropic 发现：仅 250 份中毒文件即可攻破大型 AI 模型

作者：心靈之曲 | 点击: | 来源：心靈之曲

1110
2025

一项由Anthropic联合英国人工智能安全研究所及艾伦图灵研究所开展的重要研究揭示，仅仅250个被恶意“投毒”的文档，就足以在大型语言模型（LLM）中成功植入后门，且攻击效果不受模型参数规模影响。打破固有观念：极少量污染数据即可操控模型行为研究团队对从6亿到130亿参数的多种模型进行了测试，结果表明，即便使用更高质量、更纯净数据训练的更大模型，其抵御此类攻击的能力并未提升——所需中毒样本数量始终维持在同一水平。这一发现推翻了过去普遍认为攻击者必须掌控大量训练数据才能实施有效攻击的假设。实...

一项由 Anthropic 联合英国人工智能安全研究所及艾伦图灵研究所开展的重要研究揭示，仅仅 250 个被恶意“投毒”的文档，就足以在大型语言模型（LLM）中成功植入后门，且攻击效果不受模型参数规模影响。

打破固有观念：极少量污染数据即可操控模型行为

研究团队对从 6亿到 130亿 参数的多种模型进行了测试，结果表明，即便使用更高质量、更纯净数据训练的更大模型，其抵御此类攻击的能力并未提升——所需中毒样本数量始终维持在同一水平。这一发现推翻了过去普遍认为攻击者必须掌控大量训练数据才能实施有效攻击的假设。

实验中，这些中毒样本仅占总训练数据的 0.00016%，却仍能显著改变模型输出行为。研究人员共训练了72个不同配置的模型，并分别尝试使用100、250和500份中毒文件进行攻击。数据显示，250份已足够在所有规模模型中稳定建立后门，进一步增加至500份并未增强攻击成功率。

安全可控的实验设计：触发词设为“SUDO”

本次研究采用的是“拒绝服务”型后门机制：当输入中出现特定触发词“SUDO”时，模型便会生成一段随机、无意义的乱码。每个中毒文档结构均为正常文本 + 触发词 + 无关内容，以此训练模型将该词与异常响应关联。

Anthropic 特别指出，此次测试所构建的后门属于低危害、局限性漏洞，仅导致模型输出无效代码，不会对高级系统造成实质性威胁。目前尚不确定此类方法是否可扩展用于更危险的攻击场景，例如诱导生成恶意代码或规避安全审查。已有初步证据显示，实现复杂攻击的技术门槛显著更高。

主动公开：为防御体系提供预警

尽管存在被恶意利用的风险，Anthropic 仍决定公开研究成果，认为这有助于整个 AI 行业提升防御能力。他们强调，数据中毒是少数几种防御方具备优势的攻击类型，因为训练数据和最终模型均可被审计与检测。

研究团队提醒，不能因某些攻击看似不可能就放松警惕。即使仅有

极少量持续存在的污染样本，AI 系统的安全机制也必须持续有效。同时，攻击者依然面临获取训练数据权限以及绕过多层部署防护的实际障碍。

欢迎光临，我们是一家专注中小型企业营销推广服务的公司！

专注企业电商网络营销推广！免费电商SEO诊断，你可信任的网络推广专家

Anthropic 发现：仅 250 份中毒文件即可攻破大型 AI 模型

打破固有观念：极少量污染数据即可操控模型行为

安全可控的实验设计：触发词设为“SUDO”

主动公开：为防御体系提供预警