研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容西安市某某酸菜鱼有限公司便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功西安市某某酸菜鱼有限公司实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:娱乐)
-
被嘲“最丑阿紫”的她,成名后抑郁想轻生,如今她活得让全网羡慕
在香港娱乐圈,刘玉翠这个名字,曾是一张“金牌配角”的名片。她演过最毒的阿紫、最疯的建宁公主,也曾在金像奖颁奖台上,哭着说“我不是明星,我只是个演员”。但很少有人知道,那些荧幕上的疯癫与倔强,不过是她真
...[详细]
-
新京报讯记者慕宏举)李先生在某博物馆休息时,旁边小朋友逗流浪猫导致自己被抓伤,他认为博物馆未对管理区域内的动物采取安全措施遂起诉索赔。近日,北京市西城区人民法院审结此案,最终驳回了他的诉讼请求。新京报
...[详细]
-
本文转自:人民日报《 人民日报 》 2024年11月19日 第 07 版) 本报北京11月18日电记者施芳)记者从北京市民政局获悉:北京、天津、河北、内蒙古、吉林、黑龙江、海南、云南等8省区市共同推
...[详细]
-
新京报讯 据北京市交通运行监测调度中心官微消息,根据气象部门预报,下周天气以多云和晴为主,白天最高气温6~12℃,夜间最低气温-1~2℃。冬季悄然而至,气温明显下降,请注意及时添衣保暖。随着天气转冷,
...[详细]
-
IT之家 12 月 1 日消息,据科技媒体 NoteBook Check 昨天报道,一款名为 Lotus Diplomat 的全键盘手机最近现身网络,配备 5.3 英寸屏幕和 24GB 内存,搭载高通
...[详细]
-
近期,新型电信诈骗频发,令很多事主防不胜防。针对线上交易,银行汇款频频被拦截的情况,不法分子将重点转移到了线下。前不久,北京门头沟警方拦截一辆网约货运车,在车内起获一件神秘包裹,打开一看竟然装着7万8
...[详细]
-
原标题:外国网红看海南 | 杰里德一家的美食穿越,霓虹下的味蕾盛宴!) 外国网红看海南 | 杰里德一家的美食穿越,霓虹下的味蕾盛宴! 来源:视频综合)
...[详细]
-
12月14日考试!北京市2025年第一次高考英语听说考试这些问题要留意
北京市2025年第一次高考英语听说考试将于2024年12月14日进行。北京教育考试院网站日前发布《北京市2025年高考英语听说机考考生须知》和《北京市2025年高考英语听说机考问答》,一起来看看吧!北
...[详细]
-
近日,全红婵在新疆机场候机的照片火爆网络,在刚结束滑雪之行的全妹,身着宽松卫衣与运动长裤的白色休闲装,搭配软糯毛线帽,清爽惬意,在人群中卓然出众,吸睛无数。不巧的是,新疆突然起了大雾,不少航班不得不延
...[详细]
-
11月17日,澎湃新闻www.thepaper.cn)从四川省三台县公安局获悉,经DNA筛查比对,该县断山村被拐44年的女子杨中琼终于找到了自己的亲人。据介绍,2024年10月16日上午,三台公安情指
...[详细]

