爆点资讯

JADES 由德国亥姆霍兹信息安全中心（CISPA)，富莱睿（Flexera）和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下，老师会如何批改考试中的开放题：如果考生只在开头写「答：」，但是后面却没有给出答案，当然不能得分；反之，如果他开头说「我不会」，却在后面写出了正确答案，那就该得分。另一方面，还有的答案看似组织良好、道理高深，却句句不在点上，那么依然只能低分；只有当回答准确且全面地涵盖了解决问题的关键要点时，其得分才较高。老师给分的依据，在于答案的实际内容和关键点，而不在于答案的开头、词藻或者形式。

可惜，目前 LLM 越狱攻击（Jailbreak）的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标，要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象，无法覆盖得分的要点，导致评估容易出现偏差，很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题，来自CI

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

乌防长：都怪...

张泉灵硬核督...

媒体:马英九...

修杰楷庆祝生...

马斯克向左，...

那些年王室贵...

对乌输送武器不断德国军火公司订单大增

法拉第未来 Super One 迈入批量试制及生产阶段

今年流行贵气感穿搭，不管三十岁还是五十岁，都能穿出洋气感

航天专家被策反出卖核心情报国安公布抓捕画面

在美流浪博士老家镇政府：若其是美国国籍无法介入

孔德昕：去年全明星已被称为史上最糟糕的比赛之一今年不遑多让

董宇辉新号首播提＂丈母娘＂俞敏洪:他若离职账号归他

巴基斯坦与沙特阿拉伯签军事协议多国受震动

为什么黄仁勋还成不了世界首富？

2025秋冬一定要拥有的5只包包，怎么搭都好看

林青霞晒与杨紫琼合照感慨今年春天特别美好

社区团购迎来新对手，大战卷土重来？

赵少康为何不参选国民党主席陈文茜:他怕妻女怕得要死

羊绒羊毛专场|| 你们一直问链接的这件，终于来了！

2024火了一种辣妹穿搭：“胸衣+透视装”，穿了像没穿，性感时髦

美国坠机航母将退役

购置税新规下的购车选择题，插混车抄底还是等新车？

媒体:布林肯3个月4赴中东说明美国＂又急又没办法＂

谷歌百人“复仇者联盟”出击！将发对标GPT-4的大模型

吴孟达丧礼当日设公祭1小时公众人士可前往致敬

福斯特：曼联看起来很有信心，但争4与曼城相比差距依然明显

营收交付创新高，为何禾赛科技反而赚得更少了？

Linus新年首骂：和谷歌大佬大吵4天，“你的代码就是垃圾”

17年的双十一底层逻辑变了？“小时达”来了，AI帮你选品