第87期 | GPTSecurity周报

释放双眼,带上耳机,听听看~!
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。
1. 通过通信攻击对 LLM 多智能体系统进行红队攻击
简介:基于大语言模型的多智能体系统(LLM-MAS)借助基于消息的通信,实现了复杂的智能体协作,极大地提升了复杂问题的解决能力。通信框架对于智能体协调来说至关重要,然而,它也带来了一个关键且尚未被深入探索的安全漏洞。在这项研究中,研究者提出了中间人代理(AiTM)这种全新的攻击方式,它利用 LLM-MAS 的基本通信机制,通过拦截和操纵智能体间的消息来实施攻击。与以往危害单个智能体的攻击不同,AiTM 展现了攻击者如何仅通过操纵智能体之间传递的消息,就能危害整个多智能体系统。为了在有限控制和角色受限的通信格式的挑战下实现攻击,研究者开发了一个由 LLM 驱动的对抗智能体,该智能体具备反射机制,能够生成具有上下文感知的恶意指令。通过对各种框架、通信结构和实际应用程序的全面评估,结果表明 LLM-MAS 易受到基于通信的攻击,这也凸显了多智能体系统中采取强有力安全措施的必要性。

链接:

https://arxiv.org/abs/2502.14847
2. 迈向稳健、安全的具身人工智能:漏洞与攻击调查
简介:具身人工智能系统,如机器人和自动驾驶汽车,正越来越多地应用于现实世界。在实际应用中,这类系统会遭遇一系列因环境和系统层面因素而产生的漏洞。这些漏洞体现为传感器被欺骗、遭受对抗性攻击,以及任务和运动规划出现失误等,对系统的稳健性和安全性构成重大挑战。
尽管相关研究成果不断涌现,但现有的评论很少专门针对具身人工智能系统特有的安全挑战展开。此前大部分工作,要么探讨的是一般的人工智能漏洞,要么仅聚焦于孤立的方面,缺乏专门针对具身人工智能的统一框架。
本次调查填补了这一关键空白,具体方式如下:
1. 对具身人工智能特有的漏洞按来源进行分类,分为外生性来源(如物理攻击、网络安全威胁)和内生性来源(如传感器故障、软件缺陷);
2. 系统分析具身人工智能独有的对抗性攻击范式,重点关注其对感知、决策和具身交互的影响;
3. 研究针对具身系统中大型视觉语言模型(LVLM)和大语言模型(LLM)的攻击方式,例如越狱攻击和指令误解;
4. 评估具身感知、决策和任务规划算法在鲁棒性方面面临的挑战;
5. 提出针对性策略,以增强具身人工智能系统的安全性和可靠性。
通过整合上述多个维度,研究者构建了一个全面的框架,用于理解具身人工智能中漏洞与安全性之间的相互作用。

链接:

https://arxiv.org/abs/2502.13175
3. LAMD:使用 LLM 进行上下文驱动的 Android 恶意软件检测和分类
简介:随着移动应用程序的迅速发展,Android 恶意软件的威胁日益严重。虽然目前存在多种检测方法,但这些方法在应对不断变化的攻击手段、数据集偏差以及有限的可解释性等问题时,往往力不从心。大语言模型(LLM)凭借其零样本推理和推断能力,为解决这一难题提供了新的思路。
不过,将 LLM 应用于 Android 恶意软件检测仍面临两大关键挑战:其一,Android 应用程序中存在大量支持代码,通常涵盖数千个类,这远远超出了 LLM 的上下文限制,使得恶意行为隐藏在良性功能之中,难以被察觉;其二,Android 应用程序结构复杂,各部分相互依赖,超出了 LLM 基于序列的推理能力范围,这不仅干扰了代码分析过程,还阻碍了对恶意意图的推断。
为了克服这些挑战,研究人员提出了 LAMD,这是一个基于上下文驱动的实用框架,旨在实现基于 LLM 的 Android 恶意软件检测。LAMD 首先集成关键上下文提取功能,以隔离安全关键代码区域并构建程序结构,随后采用分层代码推理的方式,逐步分析应用程序行为,从低级指令到高级语义,最终给出预测结果并提供解释。此外,LAMD 还精心设计了事实一致性验证机制,以缓解第一层中 LLM 可能产生的幻觉问题。
在实际环境中的评估结果表明,LAMD 比传统检测器更为有效,这为在动态威胁环境中,基于 LLM 驱动的恶意软件分析奠定了可行的基础。

链接:

https://arxiv.org/abs/2502.13055
4. 大型推理模型的隐藏风险:R1 的安全评估
简介:随着 OpenAI-o3 和 DeepSeek-R1 等大型推理模型的迅速发展,相较于非推理大语言模型(LLM),它们在复杂推理能力上有了显著提升。不过,这些模型功能的增强,以及像 DeepSeek-R1 这类模型的开源可访问性,引发了严重的安全问题,尤其是被滥用的潜在风险。
在这项研究中,研究者对这些推理模型展开了全面的安全评估。一方面,运用已有的安全基准,评估它们是否符合安全法规;另一方面,调查它们对越狱和即时注入等对抗性攻击的敏感程度,以此评估其在实际应用中的稳健性。
通过多维度的分析,研究者获得了四个关键发现:
1. 开源的 R1 模型和 o3-mini 模型,在安全基准测试和应对攻击方面,都存在明显的安全差距,这意味着有必要在 R1 模型上投入更多的安全保障措施。
2. 相较于符合安全标准的基础模型,蒸馏推理模型的安全性能欠佳。
3. 模型的推理能力越强,在回答不安全问题时,可能带来的潜在危害就越大。
4. R1模型的思考过程,比其最终给出的答案存在更大的安全隐患。
这项研究深入剖析了推理模型的安全隐患,着重指出需要进一步提升 R1 模型的安全性,从而缩小安全差距。

链接:

https://arxiv.org/abs/2502.12659
5. 使用代理方法自动对大语言模型进行提示词泄漏攻击
简介:本文提出了一种全新的方法,用于评估大语言模型(LLM)在应对提示泄漏问题时的安全性。所谓提示泄漏,即系统级提示或专有配置的暴露,研究者将其视作保障 LLM 部署安全的关键威胁,并引入了一个框架,通过代理团队来测试 LLM 的稳健性。
研究者借助 AG2(曾用名 AutoGen),实现了一个多代理系统。在这个系统中,协作代理负责对目标 LLM 进行探测与利用,以此引出其提示。
在密码学传统安全性定义的指引下,研究者进一步对提示泄漏安全系统作出定义:在该系统中,攻击者无法区分两个代理,其中一个代理使用原始提示进行初始化,另一个则使用删除了所有敏感信息的提示初始化。在安全系统里,攻击者无法区分代理的输出,这就保证了敏感信息的安全性。这种受密码学启发的框架,为评估和设计安全的 LLM 提供了严谨的标准。
这项研究建立起一套系统的对抗性测试方法,用以检测提示泄漏问题,填补了自动威胁建模与实际 LLM 安全性之间的空白。

链接:

https://arxiv.org/abs/2502.12630
6. SoK:了解大语言模型供应链中的漏洞
简介:大语言模型(LLM)极大地变革了人工智能领域,有力推动了自然语言理解、文本生成以及自主系统的发展。不过,随着 LLM 开发与部署过程愈发复杂,也带来了严峻的安全挑战,特别是在 LLM 供应链方面。当前,现有的研究大多聚焦于内容安全,如对抗性攻击、越狱和后门攻击等,却忽视了底层软件系统中存在的安全漏洞。
为了弥补这一研究空白,本研究系统性地分析了 75 个知名项目中报告的 529 个漏洞,这些项目涵盖了 13 个生命周期阶段。分析结果显示,漏洞主要集中在应用程序层(占比 50.3%)和模型层(占比 42.7%),其中不当的资源控制(占比 45.7%)和不当的中和(占比 25.1%)被确认为主要的根本原因。此外,虽然 56.7% 的漏洞有相应的修复程序,但其中 8% 的补丁未能生效,导致漏洞反复出现。
本研究揭示了保护 LLM 生态系统所面临的挑战,并提供了具有实操性的见解,为未来相关研究以及缓解策略的制定提供指导。

链接:

https://arxiv.org/abs/2502.12497
7. SafeChain:具有长链思维推理能力的语言模型的安全性
简介:新兴的大型推理模型(LRM),像 DeepSeek-R1 模型,借助长链思维(CoT)推理生成结构化的中间步骤,以此提升自身的推理能力。不过,长链思维并不能确保输出的安全性,有可能引发有害的后果,比如在代码中引入安全漏洞,或者传播错误信息。
目前,针对大语言模型(LLM)安全性的研究,通常聚焦于简短回答响应,却忽视了 LRM 的长链思维风格输出。为了填补这一研究空白,研究者对 LRM 的安全性展开了系统研究。
首先,研究者探索了针对人工注释进行校准的安全性评估器。运用新开发的指标,研究者在 StrongReject 和 WildJailbreak 数据集上,全面评估了 12 个前沿的 LRM 的安全性。研究结果显示,相较于它们在推理能力上的进步,LRM 的安全性并不理想。
此外,研究者还对推理轨迹和最终答案进行了细粒度分析,发现三种解码策略(ZeroThink、LessThink 和 MoreThink)无需额外训练就能提升模型安全性。但这些策略要么采用受约束的推理轨迹,要么会产生高昂的推理成本。
为了更有效地增强 LRM 的安全性,研究者引入了 SafeChain,这是首个采用 CoT 风格的安全训练数据集。研究者使用 SafeChain 对两个 LRM 进行了微调,结果表明,这不仅增强了模型的安全性,还在 6 个推理基准测试中保持了性能。

链接:

https://arxiv.org/abs/2502.12025

给TA买糖
共{{data.count}}人
人已赞赏
行业热点

重大升级 | SecGPT V2.0:打造真正“懂安全”的大模型

2025-4-24 9:59:38

行业热点

埃文科技助力山西公共数据运营新发展

2025-4-24 9:59:54

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索