关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro591人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

互联网正在被“膨胀的垃圾”毁掉

环球时报国际 浏览 12032

拉来LV和Dior,三里屯太古里想要挑战SKP?

北京商报 浏览 15506

海港战町田泽维亚海报:象棋将军局,谋定后动

懂球帝 浏览 434

生数科技完成数千万元天使+轮融资,锦秋基金独家投资

网易科技报道 浏览 14410

杜兰特在文班亚马头顶干拔得分

OnFire 浏览 12838

彻底放弃纽约了?希音据称最早本周在伦敦提交招股意向书

科创板日报 浏览 10439

评论丨网购衣服上的“密码锁”,是商业诚信的刺眼“疤痕”

红星新闻 浏览 182

又要造手机?罗永浩AR公司新增多个经营项目

大象新闻 浏览 11713

离婚4年,42岁佟丽娅高调官宣喜讯

刘森森 浏览 274

白宫:美政府正密切关注胡塞武装任何报复性袭击

环球网资讯 浏览 12309

Angelababy正式解封!代言基本没掉,公司仍力捧,大粉曝后续动静

缘木不求娱 浏览 12179

德转:国安22岁门将马昆越自由身加盟江西庐山队

懂球帝 浏览 11588

周杰伦热捧韩星挨骂!感激对方弹奏自己音乐,网友炮轰忘本哈韩

萌神木木 浏览 1042

受益于油气需求回暖 "三桶油"上半年净赚1255亿

证券时报 浏览 20038

天猫健康《诊疗家庭化消费趋势洞察》:连续血糖监测CGM消费规模升56.4%

网易科技报道 浏览 16529

迪亚斯生涯前6场德甲直接参与9球,追平哈兰德&仅次于凯恩

懂球帝 浏览 527

“强制接管”, 西方这是明抢了?

观察者网 浏览 545

61岁吴宗宪宣布即将退圈,9亿财产分配曝光,或一分不留给儿子

扒虾侃娱 浏览 12095

75岁施瓦辛格拎铲子上街修路被赞,却修错了地方

译言 浏览 18504

卢拉:已和中国、阿联酋就联合调解俄乌冲突进行讨论

环球网 浏览 109119

雷克萨斯全新轿跑车曝光!V6引擎搭配后驱

网上车市 浏览 12189
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1