一项由Anthropic联合英国人工智能安全研究所及艾伦图灵研究所开展的重要研究揭示,仅仅250个被恶意“投毒”的文档,就足以在大型语言模型(LLM)中成功植入后门,且攻击效果不受模型参数规模影响。打破固有观念:极少量污染数据即可操控模型行为研究团队对从6亿到130亿参数的多种模型进行了测试,结果表明,即便使用更高质量、更纯净数据训练的更大模型,其抵御此类攻击的能力并未提升——所需中毒样本数量始终维持在同一水平。这一发现推翻了过去普遍认为攻击者必须掌控大量训练数据才能实施有效攻击的假设。实...
一项由 Anthropic 联合英国人工智能安全研究所及艾伦图灵研究所开展的重要研究揭示,仅仅 250 个被恶意“投毒”的文档,就足以在大型语言模型(LLM)中成功植入后门,且攻击效果不受模型参数规模影响。
打破固有观念:极少量污染数据即可操控模型行为
研究团队对从 6亿 到 130亿 参数的多种模型进行了测试,结果表明,即便使用更高质量、更纯净数据训练的更大模型,其抵御此类攻击的能力并未提升——所需中毒样本数量始终维持在同一水平。这一发现推翻了过去普遍认为攻击者必须掌控大量训练数据才能实施有效攻击的假设。
实验中,这些中毒样本仅占总训练数据的 0.00016%,却仍能显著改变模型输出行为。研究人员共训练了72个不同配置的模型,并分别尝试使用100、250和500份中毒文件进行攻击。数据显示,250份已足够在所有规模模型中稳定建立后门,进一步增加至500份并未增强攻击成功率。
安全可控的实验设计:触发词设为“SUDO”
本次研究采用的是“拒绝服务”型后门机制:当输入中出现特定触发词“SUDO”时,模型便会生成一段随机、无意义的乱码。每个中毒文档结构均为正常文本 + 触发词 + 无关内容,以此训练模型将该词与异常响应关联。
Anthropic 特别指出,此次测试所构建的后门属于低危害、局限性漏洞,仅导致模型输出无效代码,不会对高级系统造成实质性威胁。目前尚不确定此类方法是否可扩展用于更危险的攻击场景,例如诱导生成恶意代码或规避安全审查。已有初步证据显示,实现复杂攻击的技术门槛显著更高。
主动公开:为防御体系提供预警
尽管存在被恶意利用的风险,Anthropic 仍决定公开研究成果,认为这有助于整个 AI 行业提升防御能力。他们强调,数据中毒是少数几种防御方具备优势的攻击类型,因为训练数据和最终模型均可被审计与检测。
研究团队提醒,不能因某些攻击看似不可能就放松警惕。即使仅有

极少量持续存在的污染样本,AI 系统的安全机制也必须持续有效。同时,攻击者依然面临获取训练数据权限以及绕过多层部署防护的实际障碍。
相关推荐:
AI写文章免费智能写作新时代
怎样使用AI写文章:释放创作潜能,提升写作效率
OpenAIChatGPT:引领人工智能的未来,开启智慧交流新纪元,城堡浴室ai
用AI写的文章算原创吗?真相揭示,带你深度思考!
SEO做好,企业网站流量翻倍的关键,seo白帽技术有哪些
英语日记AI生成:轻松提升英语水平的智能助手
AI人工智能文章生成平台,释放创作无限可能
SEO优化模式:如何通过智能优化提高网站流量与排名
xml格式不正确,不支持采集数据采集中的常见难题,ai插图教程
AI网站开发与代码创新:引领未来数字化变革的关键,ai文字绕排后字消失
SEO好吗?助力网站成功的关键之道,网站优化方案范文怎么写
SEO优化网站多少钱?让我们揭开背后的价格和价值
免费抓取网页数据工具:轻松获取网站信息,开启数据采集新时代,ai蜡笔小新
免费翻译在线翻译器:打破语言障碍,沟通无国界,ai销售图片
SEO一时,成功一生:SEO技巧,让你的事业步入新高度
8种适合当副业的靠谱网上兼职项目介绍
SEO优化职业:开启数字营销新时代的关键岗位
AI热门工具的魅力:智能时代的新助力
SEO优化技巧如何提高网站排名,轻松打造高效SEO策略
AI一键生成文章,写作新境界
实用AI工具:提升效率、优化生活的科技利器
可以长期去做的五种网络赚钱方法,赶快行动起来!
AI搜索相似文章怎么做?揭秘高效文章检索的核心技术!,对称数字ai
SEO优化是什么?提升网站排名的终极指南
怎么让AI润色文章,让写作更轻松?
2020年手机游戏赚钱排行榜NO.1玩问道赚钱!
豆瓣引流拉新变现月入过万项目实操经验分享!
自动写小说生成器电脑版:让创作变得轻松又高效!,ai 反相
用AI写一篇文章,如何提升你的写作效率与创意
高效提升创作力,标题生成器在线助你一键打造爆款标题,人机ai猎鹰