研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容宿州市某某国际贸易服务中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功宿州市某某国际贸易服务中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:热点)
-
新华社泰国尖竹汶12月27日电记者林淑婷 常天童)泰国和柬埔寨两国代表团当地时间27日9时40分左右开始在泰国尖竹汶府边境口岸举行停火谈判。如双方达成一致,则将在当天中午签署相关协议。点击进入专题
...[详细]
-
数学家和中学数学,这似乎八竿子打不着,正如很多人认为数学不过是不断刷题……其实,越是基础的东西越难讲清楚,正如数学家陈省身先生指出的,把数学讲得干巴巴的,扼杀了孩子的好奇心,数学再简单也难了。近些年来
...[详细]
-
△泽连斯基资料图) 当地时间22日,乌克兰总统泽连斯基在出席活动时强调,乌克兰必须在武器生产的质量和规模上保持欧洲领先地位。他指出,实现防空系统及其配套导弹在乌克兰本土生产,或与邻国合作开展实际生产
...[详细]
-
据路透社12月20日报道,柬埔寨外交与国际合作部20日表示,中国外交部亚洲事务特使邓锡军本周访问金边,推动缓和柬埔寨与泰国两国边境的交火。 报道称,邓锡军此次访问正值美国和中国重启斡旋努力,推动
...[详细]
-
当年最高可抵扣30%广告费和业务宣传费。 化妆、医药和饮料制造业迎来利好政策。 近日,财政部、税务总局发布《关于广告费和业务宣传费支出税前扣除有关事项的公告》下称《公告》),明确对化妆品制造或
...[详细]
-
新华社北京12月22日电 美国和乌克兰方面21日各自发布几乎完全相同的声明,称双方代表团以及欧洲方面过去3天的一系列会谈“富有成效和建设性”。声明未显示各方会如何就结束乌克兰危机的分歧统一立场,被
...[详细]
-
北京时间2025年12月20日20时30分,我国在文昌航天发射场使用长征五号运载火箭,成功将通信技术试验卫星二十三号发射升空,卫星顺利进入预定轨道,发射任务获得圆满成功。该卫星主要用于开展多频段、
...[详细]
-
连贴三晚,膝盖深Ⅲ度烫伤!很多人冬天都在用2025-12-22 07:28:19 来源:国家应急广播微信公众号
...[详细]
-
▼点下方播放按钮收听十点主播绛染朗读音频你有没有发现?很多时候,养育中最耗父母心神的,很少是大事,反而几乎都是日常中,最不起眼的小事:写作业磨叽;字迹潦草;衣服乱放;做题马虎;老吃零食……每一件,分分
...[详细]
-
2026 年全国硕士研究生招生考试已顺利落幕!大家都开始估分了吗?不管考场上发挥如何,都先放平心态,给自己放个短假轻松一下吧。休整过后,就可以着手准备复试的相关事宜啦!目前,多个省份已经陆续公布了本次
...[详细]

460万吨!我国最大超深油田年产油气创新高
“双线”冲关债券展期,万科与时间赛跑