Garnter:决策智能未来重要战略技术

什么是决策智能?

AAAI 2024 | 研究院三篇最新研究成果被AI顶会录用
发布日期:2024-01-23

        享誉全球的人工智能顶级学术会议——第38届AAAI(AAAI Conference on Artificial Intelligence) 将于2024年2月在加拿大温哥华举行。中科南京人工智能创新研究院三篇最新研究成果被录用。

        AAAI 是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、研究方向最广的国际前沿顶级学术会议之一,同时是中国计算机学会(CCF)推荐的A类国际学术会议。第38届国际人工智能大会(即AAAI 2024)将于2024年2月20日至27日在加拿大温哥华举行。本次研究院被录用的论文涵盖决策智能、强化学习、多智能体、轻量化人工智能等方向的最新研究成果。以下为三篇论文简介(排序不分先后)。


01. 态深度路由的多任务强化学习

Not All Tasks Are Equally Difficult: Multi-Task Reinforcement Learning with Dynamic Depth Routing

作者:何金岷,李凯,臧一凡,傅浩波,付强,兴军亮,程健

        多任务强化学习致力于用单一策略完成一系列不同的任务。为了通过在多个任务中共享参数来提高数据效率,一种常见的做法是将网络分割成不同的模块,并训练路由网络将这些模块重新组合成特定任务的策略。然而,现有的路由方法对所有任务都采用固定数量的模块,忽略了难度不同的任务通常需要不同数量的知识。我们提出了一种动态深度路由(D2R)框架,它可以选择性地跳过某些中间模块,从而灵活地为每个任务选择不同的模块数量。在此框架下,我们进一步引入了ResRouting方法,以解决离策略训练过程中行为策略和目标策略之间路由路径不一致的问题。此外,我们还设计了一种自动路由平衡机制,以鼓励在不干扰已掌握任务路由的情况下,继续探索未掌握任务的路由。我们在机械臂操作环境Meta-World中进行了广泛的实验,结果表明与MTRL基准算法相比,D2R在采样效率和最终性能方面都有显著提高。


02. 合作型多智能体强化学习的内在动作趋势一致性

Intrinsic Action Tendency Consistency for Cooperative Multi-Agent Reinforcement Learning

作者:张峻凯,张一帆,张希,臧一凡,程健

        在合作型多智能体系统中,集中训练分散执行算法(CTDE)仍存在智能体高效合作的挑战。我们分析认为智能体之间的动作策略分歧是影响其训练效率的一个重要因素,这导致算法需要大量的训练样本来训练智能体的团队共识。这种分歧源于CTDE算法的信用分配过程缺乏足够的团队共识相关的奖励指导信号。为了解决这个问题,我们提出了合作型多智能体强化学习的内在动作趋势一致性算法。我们利用动作模型使得邻居智能体能够预测中心智能体的动作趋势。通过动作趋势的预测计算我们设计了一个合作型内在奖励,它鼓励将中心智能体与邻居智能体的动作趋势相匹配。除此之外我们通过理论分析建立了RA-CTDE与CTDE的等价性,证明了CTDE的训练过程可以用每个agent的独立目标来实现。在此基础上,我们提出了一种结合内在奖励和CTDE的新方法。我们在SMAC和GRF基准环境中对具有挑战性的任务进行了大量实验,性能提升证明了我们的方法的有效性。


03. 针对高效掩码图像建模的块感知样本选择

Patch-Aware Sample Selection for Efficient Masked Image Modeling

作者:诸葛正阳,王家兴,李勇,包勇军,王培松,程健

        尽管样本选择在传统的监督学习中可以通过提取最具重要性的子数据集来有效减少训练成本,但由于样本级别的重要性赋分和图像块级别的预训练模式存在一定差异,将样本选择用于掩码图像建模(MIM)的加速仍然存在挑战。我们首先构建了在MIM预训练中进行样本选择的基本框架,并发现其存在严重的性能下降的问题。我们认为该问题主要归因于两个因素:随机的掩码策略和简单的平均函数。因此我们提出了块感知的样本选择方法(PASS),其中包括一个低成本的动态训练掩码预测器 (DTMP) 和加权选择得分 (WSS)。DTMP始终保持对样本中的复杂区域进行掩码,确保相对准确和公平的样本重要性得分。WSS利用图像块级别的差异来增强重要性得分。广泛的下游任务实验显示了PASS在加速MIM预训练方面的有效性。PASS在各种数据集、不同的MIM方法和各类任务中都展现出了优越的性能。例如,PASS在仅使用37%的训练数据预算的同时,在ImageNet-1K上维持了和标准MAE相当的性能,并实现了约1.7倍的训练加速。