佛罗里达国际大学研究人员发布针对AI图像类越狱攻击的相关研究成果,发现通过像素级篡改的普通图像可绕过AI安全护栏,诱导系统输出违规内容。
核心测试数据:针对多模态AI模型BLIP-2的测试显示,经JaiLIP方法处理后的篡改图像可使AI生成有害内容的数量几乎翻倍,相关研究已在2025年机器学习与应用国际会议(ICMLA)发布。
相关影响与指向:中小企业广泛部署的小微大语言模型(用于会计核算、客服等场景)属于该类攻击的高风险目标,漏洞可能损害用户信任、开辟网络攻击新路径。
研究团队同时给出落地AI的主体三项基础防护建议:控制向AI系统上传的敏感信息量级、限制系统访问人员范围、正式部署前全面评估内置安全防护体系达标情况。
译文内容由第三方软件翻译。
声明:市场有风险,投资需谨慎。本文由AI大模型基于公开信息生成,不代表Hehson财经观点。文中所有信息、数据及图表仅供参考,不构成任何形式的投资建议或决策依据,相关信息以实际公告为准。如有疑问,请联系:biz@staff.sina.com.cn。