您现在的位置:首页
面临对立进犯,,具身智能体除了被迫预防,,也能自动出击!
在人类视觉系统启发下,,清华朱军团队在TPMAI 2025中提出了强化学习驱动的自动防护结构REIN-EAD。。
该结构让智能体也能学会“看第二眼”,,前进对态度景下的感知鲁棒性。。
对立进犯已成为视觉感知系统清静性和可靠性的严肃要挟,,这类进犯经由在三维物理场景中安排全心妄想的扰动物体(如对立补丁和三维对立物体)来操作深度神经网络的推测效果。。
在人脸识别和自动驾驶等清静要害领域,,此类误差的效果尤为严肃,,过错推测或许严肃危害系统清静性。。
可是,,现有防护步伐多依赖进犯先验,,经由对立训练或输入净化等手法完成对有害画面的“被迫防卫”,,疏忽了与情形交互可取得的丰富信息,,遇上不知道或自顺应进犯时作用迅速衰减。。
较量之下,,人类视觉系统更为迅速,,能够经由自动探讨与纠错,,自然地下降瞬时感知的不确定性。。
相似的,,REIN-EAD的中心在于运用情形交互与战略探讨,,对目的举行接连视察和循环推测,,在优化即时准确率的一起统筹长时刻推测熵,,缓解对立进犯带来的错觉。。
特殊地,,该结构引进了依据不确定性的夸奖塑形机制,,无需依赖可微分情形,,即可完成高效战略更新,,支持物理情形下的鲁棒训练。。
试验验证标明,,REIN-EAD在多个使掷中显着下降了进犯乐成率,,一起坚持了模子规范精度,,在面临不知道进犯与自顺应进犯时相同体现精彩,,展示出强壮的泛化才华。。
论文妄想了一种连系感知模浚块与战略模浚块的自动防护结构REIN-EAD,,学习人类大脑支持运动视觉的事情步伐,,使模子能够在动态情形中继续视察、探讨并重构其对场景的相识。。
REIN-EAD经由整合其时与前史视察,,构建具有时刻一致性的鲁棒情形表征,,然后前进系统对潜在要挟的识别与顺应才华。。
为前进REIN-EAD的战略学习才华,,论文提出一种依据累计信息探讨的强化学习算法,,经由指导式密布夸奖优化多步探讨途径,,引进不确定性感知机制以驱动信息性探讨。。
该步伐强化了时刻上的一致性探讨行为,,并经由强化学习范式消除了对可微情形建模的依赖,,使系统能够自动识别潜在高危害区域并动态调解行为战略,,显着前进了视察数据的有用性与系统清静性。。
针对3D情形下对立训练核算开支重大的应战,,论文提出OAPA手艺,,经由对立补丁流形的离线近似,,构建无需依赖敌手信息的普适防护机制。。
OAPA大幅下降了训练资源,,一起具有在不知道或自顺应进犯场景下的稳健防护才华,,为三维情形下的自动防护供应了一种有用且高效的处置惩罚计划。。
论文在多个规范对立考试情形与使掷中举行了系统评价,,试验效果标明:REIN-EAD在对抗多种不知道和自顺应进犯下体现出显着优于现有被迫防护步伐的功效。。
其优异的泛化才华和对杂乱现实国际场景的顺应性,,进一步验证了本文步伐在清静要害系统中的运用潜力。。
REIN-EAD是一种模拟人类在动态情形中自动感知与回声才华的对立防护结构,,该结构(如下图所示)经由感知模浚块与战略模浚块的协同,,使系统具有了与情形自动交互、迭代网络信淫欲的美女理论电影完整版息并增强自己鲁棒性的才华。。单身男女1全集在线观看
△图1:REIN-EAD结构
REIN-EAD由两其中心的循环神经模浚块组成,,创意泉源于支持人类生动视觉系统的大脑结构:
感知模子担当在每一时刻步归纳其时视察与上一步的内部信仰状态,,天生对情形状态的增强表征,,并据此推测其时的场景标签 。。该模子经由循环结构充分运用与情形交互取得的序列信息,,然后完成对杂乱视觉输入的鲁棒相识;;;;;;
战略模子则依据感知模子构建的内部情形相识,,天生用于操控下一步感知行为的行动信号,,即决议从哪个视角、以何种步伐继续网络信息,,然后有战略地指导视觉系统推行目的驱动的自动感知使命。。
经由感知模子与战略模子的闭环联动,,REIN-EAD完成了对立防护历程中的“感知—决议妄想—行为”一体化:
在每一时刻挑选长时刻最优的交互行动,,并依据情形反应一直修正其内部标明,,使得模子能从多步交互中获取最具信息量的视察反应。。
这种自动防护机制突破了古板静态防护战略在鲁棒性与顺应性方面的瓶颈,,显着前进了系统面临不知道进犯时的识别与呼应才华。。
论文扩展了部分可视察马尔可夫决议妄想历程(POMDP)结构以正式描绘REIN-EAD结构与情形的相互作用。。
场景 下的交互历程用 标明。。
这儿 划分标明状态、行动和视察空间。。场景 下的状态搬运 契合马尔可夫性子。。
由于情形的部分可视察性,,智能体不可直接造访状态,,而是接纳从视察函数 采样的视察值。。
REIN-EAD的推测历程是多步条件下的接连视察和循环推测,,感知与行动循环依赖——感知向导了行动,,而行动又取得更好的感知。。
直观上,,能够经由RNN Style的训练步伐优化多步条件下的EAD结构,,可是,,该历程触及沿时刻步反传梯度,,团队证实晰这种做法的弱点。。
主要,,论文经由理论剖析证实RNN Style的训练步伐实质上是一种贪心探讨战略:
这种贪心探讨战略或许导致EAD选用部分最优战略,,难以从多步探讨中继续获益。。
△图2:贪心信息探讨或许导致重复探讨
第二,,沿时刻步反传梯度要求状态搬运函数和视察函数有须要具有可微分性,,该性子在现真相形和常用的仿真引擎(如UE)中都是不知足的。。
最终,,在多步条件下反传梯度需求构建十分长的梯度链条,,这或许导致梯度消逝/爆破,,并带来重大的显存开支。。
为了处置惩罚贪心战略的次优性,,前进REIN-EAD的功效,,论文引进了累积信息探讨的界说:
以及多步累积交互目的:
其间,, 是探讨轨道,, 标明时刻步 的推测丧失,, 作为正则化项,,标明时刻步 的标签推测熵,,阻挠智能体做出具有对立特征的高熵推测。。
多步累积交互目的包括最小化推测丧失的目的项和赏罚高熵推测的正则项,,经由一系列与情形的相互作用,,在 步的规模内优化战略,,最小化目的变量的长时刻不确定性,,而不是只专心于单步。。
该目的经由一系枚行为和视察来最小化目的变量的不确定性,,连系推测丧失和熵正则化项,,鼓舞智能体抵达信息丰富且鲁棒的认知状态,,然后对对立扰动具有鲁棒性。。
论文中对所提出的多步累积交互目的与累积信息探讨的界说一致性举行了证实,,并进一步剖析了累积信息战略较量贪心信息战略的功效优胜性。。
为了进一步消除对可微分训练情形的依赖并下降梯度优化的不牢靠性,,论文中提出了一种连系了面向不确定性的夸奖塑形的强化战略学习步伐。。
面向不确定性的夸奖塑形在每一步供应密布的夸奖,,增进战略 追求新的视察效果作为来自情形的反应,,处置惩罚了多步累积交互目的中的只能在回合竣事时取得夸奖的希罕性问题,,减轻了探讨和运用分派的应战,,增进了更快的收敛和更有用的学习。。
$$$$淫欲的美单身男女1全集在线观看899;理论电影完整版$$论文中还证实晰这种夸奖塑形与多步累积交互目的的等价性(细节拜见论文)。。关于强化学习主干,,论文中选用了学习功率和收敛牢靠性较好的近端战略优化(PPO),,经由约束战略的巨细来完成牢靠的战略更新。。
论文中还提出了离线对立补丁近似(OAPA),,以处置惩罚3D情形中对立训练的核算开支。。
对立补丁 的核算一样平常需求内部最大化迭代,,这不但核算珍贵,,还或许导致防护对特定进犯战略过拟合,,然后阻止模子在不知道进犯中推行的才华。。
为了在坚持对立不可知性的一起前进采样功率,,论文在训练REIN-EAD模子之前引进了OAPA,,经由预先对视觉主干举行投影梯度上升获得一组取代的补丁作为对立补丁流形的离线近似。。
试验效果标明,,推行这种离线近似最大化允许REIN-EAD模子学习紧凑而赋有体现力的对立特征,,使其能够有用地防护不知道进犯。。
别的,,由于这种最大化历程只在训练前爆发一次,,因而大大前进了训练功率,,使其与古板对立训练较量更具有竞争力。。
论文中在人脸识别、3D物体分类、目的检测多个使命上运用一系列像素空间、隐变量空间下的白盒、黑盒、自顺应进犯步伐,,效果标明在三个使命上REIN-EAD的作用都优于SAC、PZ、DOA等基线防护(表1,,3,,4)。。
△表1:人脸识别使掷中逃逸和饰演两种进犯目的下的效果
人脸识别使掷中,,经由REIN-EAD结构改善IResNet50模子,,运用EG3D可微分陪衬器完成CelebA-3D数据集的可微分三维重修,,以对累计探讨的REIN-EAD与ICLR 2024 事情中贪心探讨的EAD举行公正较量。。
经由对各个组件的融化,,划分证实晰累计信息探讨和OAPA的有用性(表1,,2,,图3)。。
△表2:人脸识别使掷中的REIN-EAD模浚块融化效果
△图3:人脸识别试验的REIN-EAD可视化示例
人脸识别试验的可视化动态示例
在物体分类使掷中,,经由REIN-EAD结构改善Swin-S模子,,运用Pytorch3D对OmniObject3D三维扫描物体数据集举行可微分陪衬,,以在三维情形下的图画分类使命上对REIN-EAD的通用性举行评价(表3)。。
虽然在前期历程中REIN-EAD或许被对立补丁诈骗做出过错推测,,但在随后的历程REIN-EAD举行了准确的自我修正(图4)。。
△表3:物体分类试验效果
△图4:物体分类试验的REIN-EAD可视化示例
目的检测使掷中,,经由REIN-EAD结构改善YOLO-v5模子,,运用CARLA构建具有着实陪衬视察的试验场景,,进一步证实晰REIN-EAD在杂乱使命和现实场景的有用性(表4,,图5)。。
△表4:目的检考试验效果
△图5:目的检考试验的REIN-EAD可视化示例
目的检考试验的可视化动态示例
别的,,论文中还对补丁巨细、补丁形状、进犯强度等多个差别的进犯敌手战略举行了填补试验,,以周全的验证REIN-EAD面临不知道进犯敌手的泛化才华。。
本文提出的REIN-EAD是一种新的自动防护结构,,能够有用地减轻现实国际3D情形中的对立补丁进犯。。
REIN-EAD运用探讨和与情形的交互来将情形信息语境化,,并改善其对目的目的的相识。。
它积累了多步相互作用的时刻一致性,,平衡了即时推测精度和长时刻熵最小化。。
试验标明,,REIN-EAD显着增强了鲁棒性和泛化性,,在杂乱使掷中具有较强的适用性,,为对立防护供应了差别于被迫防护手艺的新钻研视角。。
论文:https://arxiv.org/abs/2507.18484
代码:https://github.com/thu-ml/EmbodiedActiveDefense
本文来自微信公共号“量子位”,,作者:清华朱军团队,,36氪经授权宣布。。