关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro588人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

航天专家被策反出卖核心情报 国安公布抓捕画面

政知新媒体 浏览 74501

在美流浪博士老家镇政府:若其是美国国籍 无法介入

极目新闻 浏览 73412

孔德昕:去年全明星已被称为史上最糟糕的比赛之一 今年不遑多让

直播吧 浏览 11694

董宇辉新号首播提"丈母娘" 俞敏洪:他若离职账号归他

中国新闻周刊 浏览 74625

巴基斯坦与沙特阿拉伯签军事协议 多国受震动

环球网资讯 浏览 1155

为什么黄仁勋还成不了世界首富?

每日人物 浏览 10172

2025秋冬一定要拥有的5只包包,怎么搭都好看

LinkFashion 浏览 1245

林青霞晒与杨紫琼合照 感慨今年春天特别美好

网易娱乐 浏览 19487

社区团购迎来新对手,大战卷土重来?

Tech星球 浏览 14221

赵少康为何不参选国民党主席 陈文茜:他怕妻女怕得要死

海峡导报社 浏览 5457

羊绒羊毛专场|| 你们一直问链接的这件,终于来了!

黎贝卡的异想世界 浏览 291

2024火了一种辣妹穿搭:“胸衣+透视装”,穿了像没穿,性感时髦

潮人志Fashion 浏览 10843

美国坠机航母将退役

极目新闻 浏览 340

购置税新规下的购车选择题,插混车抄底还是等新车?

百姓评车 浏览 494

媒体:布林肯3个月4赴中东 说明美国"又急又没办法"

上观新闻 浏览 12554

谷歌百人“复仇者联盟”出击!将发对标GPT-4的大模型

智东西 浏览 13847

吴孟达丧礼当日设公祭1小时 公众人士可前往致敬

网易娱乐 浏览 26060

福斯特:曼联看起来很有信心,但争4与曼城相比差距依然明显

懂球帝 浏览 30

营收交付创新高,为何禾赛科技反而赚得更少了?

钛媒体APP 浏览 14272

Linus新年首骂:和谷歌大佬大吵4天,“你的代码就是垃圾”

量子位 浏览 11964

17年的双十一底层逻辑变了?“小时达”来了,AI帮你选品

时代周报 浏览 25
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1