研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容保定市某某通信设备服务中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功保定市某某通信设备服务中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:休闲)
-
吉林长岭警方通报:两天犯两案致2人死亡恶性案件嫌疑人已被抓获
新京报讯12月4日,长岭县公安局发布警情通报:12月1日,长岭县长岭镇发生一起刑事案件,致1人死亡。接警后,公安机关立即组织开展侦查,确定犯罪嫌疑人为姚某男,34岁)。经进一步工作,12月2日在通榆县
...[详细]
-
@中新体育 5月7日消息,当地时间6日,国际足联首次发布五人制足球世界排名。女足方面,巴西队位列榜首。根据排名显示,中国队排名第25位。其他亚洲球队方面,泰国队排名第6,伊朗队排名第8,日本队排名第9
...[详细]
-
劳动创造幸福,奋斗成就美丽。当前,随着新一轮科技革命和产业变革的加速演进,新技术、新业态、新模式在催生新产业新赛道新岗位的同时,也在重新塑造那些身处变革浪潮中的劳动者。值此"五一"国际劳动节假期,人民
...[详细]
-
铁路是国家重要基础设施和国民经济“大动脉”。据悉,铁路“五一”假期运输4月29日全面启动,5月6日结束,为期8天,全国铁路预计发送旅客1.44亿人次,日均发送旅客1800万人次;5月1日为客流最高峰日
...[详细]
-
肖战定档于12月6日上映的新片《得闲谨制》,自28日起就在紧锣密鼓的宣发当中。这部电影项目由“正午阳光”主控制作出品,自2024年3月公开发布项目信息后,一直维持着低调神秘的作风。电影从项目启动到20
...[详细]
-
网友称出租车司机将两女子反锁车内等拼车,南昌市交通运输局回应
5月6日,江西省南昌市交通运输局官方微博@南昌市交通运输局 发布情况说明称,2024年5月6日,我局关注到抖音网友反映的“出租车司机将已上车两女子强行反锁车内等拼车”情况,第一时间开展调查,5月6
...[详细]
-
八达岭夜长城自4月30日常态化开放游览。 受访者供图“五一”期间,上演“人挤人、人堵人”出行盛况的,不止白天举行的文旅活动。不少知名景区、传统街道、文化展馆还推出了“夜游”项目,让游客在夜间的万千光影
...[详细]
-
热热闹闹的线粒体大厂中,线粒体基因细胞色素b(CYTB)兄弟的一项全新能力,已被我国科学家解锁出来。5月3日,国际期刊《细胞-代谢》刊发了中国科学院广州生物医药与健康研究院刘兴国课题组的该项研究成果。
...[详细]
-
李小恒总结2025赛季:从艰难中吸取教训,并以更强的姿态回归
日前,效力于山东泰山的港脚李小恒在社交媒体里晒出视频并发文总结自己的2025赛季:“真是跌宕起伏的一个赛季,从艰难中吸取教训,并以更强的姿态回归。好好休息一下,渴望在2026年迎接更多挑战。”李小恒写
...[详细]
-
热热闹闹的线粒体大厂中,线粒体基因细胞色素b(CYTB)兄弟的一项全新能力,已被我国科学家解锁出来。5月3日,国际期刊《细胞-代谢》刊发了中国科学院广州生物医药与健康研究院刘兴国课题组的该项研究成果。
...[详细]

科普·呼吸道传染病如何防控?选择对症药物要注意什么?一文梳理↓
美国内华达州发生5.9级地震