新智元|多智能体强化学习成热点,华为诺亚方舟8篇论文入选( 二 )


从直觉上来说 , 满足DPP的过程一般有一个性质是 , 相似的两个元素同时出现的概率是比较小的 。 基于此 , 我们提出一个Q-DPP , 用作多智能体学习中联合Q值(JointQValue , Q(o,a))的函数估计器(FunctionApproximator) 。
在Q-DPP中 , 我们可以把每个智能体(Agent)i的观测向量(Observation)和动作(Action)(oi,ai)看做一个item , 每个智能体的所有观测与动作的集合可以看做一个分区(Partition) , 给定所有智能体的观测的情况下 , 采样出联合动作(JointAction)的过程可以看做从每个分区采样一个(oi,ai)item的过程 。
最后通过采样的联合动作计算logdet得到联合动作的Q值 。 我们通过将大的核矩阵分解为质量(Quality)和多样性(Diversity)矩阵 , Quality矩阵是由每个智能体的的独立Q值构成(Qi(oi,ai)) , Diversity矩阵由需要学习的(oi,ai)的多样性特征向量构成 , 来综合考虑智能体各自收益和总体的多样性 。 通过这种方式 , 我们可以自然地将Q(o,a)分解为quality和diversity两部分 。
【新智元|多智能体强化学习成热点,华为诺亚方舟8篇论文入选】基于图感知逻辑回归和抢占式查询候选集生成的属性图上主动学习策略
新智元|多智能体强化学习成热点,华为诺亚方舟8篇论文入选
文章图片
左图:常规主动学习算法vs.抢占式主动学习.右图:GEEMvsPreGEEM对于下一个打标签节点risk预估值对比.
对于(含节点属性)图网络中的节点分类问题是分类问题中的一项重要任务 , 但通常获取节点标签较为困难或昂贵 , 在有限可标注数据的预算下通常通过主动学习可以提高分类性能 。
在图网络结构数据中最好的现有方法是基于图神经网络 , 但是它们通常表现不佳除非有大量可用的标记节点作为验证集以选择一组合适的超参数 。 在这个工作中特别针对属性图中的节点分类任务 , 我们提出了一种基于图的主动学习算法GraphExpectedErrorMinimization(GEEM) 。
我们的算法在预测阶段使用了一种不需要依靠验证集调整超参的线性化图卷积神经网络(linear-GCN) , 并在主动学习查询标签阶段利用最小化预期误差的目标函数作为选择下一目标label节点的标准 。
算法主要包括两个阶段1)在模型预测阶段 , 我们提出使用线性化的GCN模型获取经验标签(预测标签)2)在获取下一label节点过程中 , 我们提出通过对未标记集合上节点的平均错误概率来计算预期误差并作为风险预估标准 , 从而选择增加此节点后经验风险最小的节点进行label 。
为了减少在为候选节点打标签过程带来的延迟(在医疗等需要细节domainknowledge的场景 , 打标签过程潜在会超过10分钟) , 我们推导出了GEEM的抢占式查询候选集生成主动学习算法并称为PreGEEM , 它在查询/打标签过程中计算下一个候选打标签的对象 。
同时 , 我们在论文中提供了关于PreGEEM风险误差的理论边界 。 最后 , 为了解决从几乎从没有标签数据开始学习的情况 , 我们提供了一种基于标签传播和线性化GCN推理的混合算法 , 进行自适应模型平均 。
我们在四个公开数据集上进行了实验验证 , 展示出了在各种实验设定下与SOTA算法相比的明显提升 , 特别是当初始标签集非常有限时我们的模型明显优于其他方法 。 此外该技术在通信网络中具有潜在的实用价值 , 例如在初始标签集稀缺时的通信网络中故障链路识别场景中 。
RNN和LSTM有长期记忆吗?
新智元|多智能体强化学习成热点,华为诺亚方舟8篇论文入选
文章图片
为了克服递归网络(RNN)学习长期依赖的困难 , 长短期记忆(LSTM)网络于1997年被提出并后续在应用方面取得了重大进展 。
长期记忆这个词虽然在深度学习领域并没有严格的定义 , 但是在统计领域早已有之 。 本文提出了能够写成马尔科夫链的递归网络不具备长期记忆的充分条件 。 推理显示 , 在无外部变量作为输入时 , RNN和LSTM的输出一般不具备统计意义上的长期记忆 。


推荐阅读