热搜: irobot  佳士科技  机器人  工业机器人  机器人产业联盟  ABB  机械手  发那科  机器人展览  码垛机器人 

英国 AI 安全研究所轻松越狱主要大语言模型,令其输出有害内容

   日期:2024-05-22     来源:IT之家     评论:0    
标签: AI 科技 创新
 IT之家 5 月 20 日消息,英国政府下属的人工智能安全研究所(AISI)今日发布了一份新报告,揭示了一个值得重视的事实 —— 当前的 AI 系统可能并非像创建者所说的那样“安全”。
 
报告指出,参与测试的四个大语言模型(IT之家注:报告未提到这些模型的具体名称)“极易受到基本越狱攻击”的影响,更有一些模型在被越狱之前,就主动生成了“有害”内容。
 
fa8fe781-863a-4510-b258-e2c08f9733cd
图源 Pexels
 
当前,大部分公开可用的语言模型都内置了部分保护措施,从而防止其生成有害或非法的内容回应。而“越狱”就意味着通过技术手段“欺骗”模型,来忽略上述措施。
 
英国 AI 安全研究所使用了近期经过标准化评估的提示词、内部自行开发的提示词进行测试,结果显示:在没有尝试越狱的情况下,所有模型都对至少一些有害问题作出了回应;而在尝试了“相对简单的攻击”之后,所有模型都对 98% 至 100% 的有害问题作出了回应。
 
报告指出,当前市面上的大语言模型所采取的安全措施仍显不足,后续将计划对其他模型进行进一步测试。
 
 
声明:凡资讯来源注明为其他媒体来源的信息,均为转载自其他媒体,并不代表本网站赞同其观点,也不代表本网站对其真实性负责。您若对该文章内容有任何疑问或质疑,请立即与中国机器人网(www.robot-china.com)联系,本网站将迅速给您回应并做处理。
电话:021-39553798-8007
更多>相关资讯
0相关评论

推荐图文
推荐资讯
点击排行