金俊宇,张婷婷
(陆军工程大学指挥控制工程学院,江苏 南京 210007)
在日益复杂的作战环境和作战任务下,传统无人系统的人机交互技术无法支持操作/指挥人员对集群进行实时决策与控制,需要无人机具备自主、智能完成任务的能力,并展开协同来应对战场的复杂性和动态性[1]。如何实现在不确定作战环境下对战场态势变化的自主响应将是无人机集群完成复杂任务的关键。同时,类比指挥员或驾驶员的决策过程来研究无人机的自主性行为和决策机制,对理解、设计和实现无人机自主系统具有重要意义。
作为无人机自主系统最重要的功能,行为决策指综合感知信息使无人机产生有利于当前态势的行为,进一步指导运动控制系统对无人机进行控制[2]。目前,无人机的任务主要依靠预先规划,决策模型按照“感知—建模—规划—动作”的慎思结构进行设计,缺点是自主行为都必须经过上述各模块且缺一不可,针对任务环境的建模需要依赖大量知识,现有方法很难给出一个涵盖所有环境状态的模型[3]。同时,战场环境的非结构化、动态变化以及无法预测的特点,使得难以对任务环境进行有效建模,做出规划并产生合理动作,且即便能对环境建模,因计算能力的限制,无法满足决策对实时性的要求[4]。
多智能体深度强化学习(Multi-agent Deep Reinforcement Learning,MDRL)针对无模型或者建模复杂的协同决策系统,采用“感知—动作”的反应式结构实现多个Agent的协同决策控制,其核心思想是将目标任务分解为Agent的多个基础行为,当传感器感知的数据发生变化时,个体依靠策略直接做出反应并从上述行为空间集中选择动作,具有较强的应变能力;训练时,将任务间接表示为奖励(目标)函数,以优化的方式模拟多个智能体与环境的相互作用,期望找到一个最大化累计奖励的策略,为实时协同决策提供了可行的方法[5]。
集群的状态感知和信息共享作为无人机集群协同决策控制的基础[6],要求无人机通过机间通信链路实现通信,但战场上以带宽为代表的通信资源尤为短缺[7]。为解决多智能体训练环境的非平稳性和部分可观察性,目前多数MDRL方法将Agent之间的通信理想化,假设Agent在每个决策控制周期中都不断地通过 信息交互来获取全局感知,用作策略网络的输入[8]。这种低效的通信方式并不适用于通信资源短缺的战场环境,部分无人机频繁占用带宽进行通信,将导致其他无人机无法及时发送消息,进而影响集群有效协同。
1.1 基于通信的无人机自主行为决策模型
本文所研究的无人机集群系统中,每架无人机的机载传感器感知范围有限,仅能准确感知自身位置状态,且无人机的动作-状态转移具有马尔可夫性,因此可以用分布式部分可观测马尔可夫决策过程(Decentralized Partially Observable Markov Decision Processes,Dec-POMDPs)[9]来描述无人机集群的行为决策过程。在Dec-POMDPs框架中,每架无人机作为智能体,根据自身获得的局部感知信息独立地做出决策,全局奖励与所有无人机的联合行为有关[10],其求解过程可以看成是联合策略空间中的最优规划的问题。基于Dec-MOMDPs的无人机集群行为决策问题可以用多元组描述,其中各要素分别表示:
1)作战编组。I={1,…,n}是执行任务的无人机集合,n是无人机的数量。
4)状态转移函数。T描述系统的状态转移,由每个无人机的状态转移组成。已知无人机i的运动模型,其自身状态完全可知,则无人机i的状态转移函数即为其运动学方程。
5)机载传感器的感知模型。Z(s,i):S→Oi描述了无人机i通过传感器感知自身位置状态si获得信息oi的过程,其中oi∈Oi,无人机i的感知信息oi即位置状态si。
无人机i通过感知信息交互可以突破感知能力的限制,获得整个集群的位置状态信息[oi,m-i],为自身决策提供有力支持,其中,m-i表示无人机i从集群内其他无人机接收到的感知信息。在此基础上,无人机i基于通信的自主行为决策模型可以表示为μi(ai|oi,m-i):Oi×M-i→Ai,其中,ai包括运动行为和通信行为,m-i=
图1 基于通信的无人机自主行为决策模型
1.2 无人机行为空间
无人机行为包括运动行为和通信行为。运动行为用于实现无人机在空间的位移,由无人机的运动方程描述。假设所有无人机的飞行高度恒定,无人机i的位置状态用si=[xi,yi]描述,表示其在二维惯性坐标系中的坐标。无人机i从当前时刻到下一时刻的运动模型如下
(1)
其中,vi、φi分别是无人机i在某个时刻的速度和航向角,二者组成无人机的运动行为,如图2所示,其中i、j用于标识对抗双方的无人机。
图2 无人机的运动模型
通信行为用于实现机间信息交互,即感知信息的发送,用布尔值表示,1表示发送信息,0表示静默。
无人机之间的通信需要经过编码、传输、解码。信源编码的过程是从信息源的符号(序列)到码符号集(比特流)的映射,编码后的信息以比特为单位通过信道进行传输。本文按照香农的信源编码定理[11],假设每个无人机的观测信息需要L个符号来传输,每个符号至少需要Nb个比特进行编码,否则信息将丢失。某一时刻有nm个无人机选择发送感知信息时,需要传输的符号数量为nm(n-1)L,信息量nm(n-1)LNb。
1.3 无人机集群通信方式
如前文所述,本文旨在研究带宽受限作战场景下的无人机集群协同决策问题。因此,需要对该问题中无人机集群的通信方式做以下假设:
1)通信方式。采用Ad hoc网络实现信息交互,如表1所示。
表1 Ad hoc网络中的主要路由协议
2)链路连通性。机间链路都为单向链路。在移动自组网环境中,因隐藏终端问题(Hidden Terminal Problem)和无人机之间设备能量(如电池能量)差异导致单向链路普遍存在[12]。
3)通信频率。每个时刻,无人机最多发送一次感知信息,如图3所示。
图3 无人机在每个时刻只发送一次感知信息
4)传输与转发时延。无人机i的感知信息经封装后发送给无人机j,无论经过多少次转发,总时延不超过一个时刻间隙。
5)MAC协议。采用频分多址接入协议(Frequency Division Multiple Access,FDMA),将无线信道资源按照当前时刻所需的链路数量平均分成若干个子信道,每条物理链路分得一个子信道。
6)路由协议。考虑决策的实时性和链路的连通性,本文研究的无人机集群采用DSDV协议作为自组网路由协议。每个无人机作为路由节点维护到其他节点的路由表,信息根据经过的链路数(跳数)来选路。同时,DSDV协议通过给每个路由设定序列号避免了路由环路的产生[13]。如图4所示,无人机1作为信源给组网内其他无人机发送自己的感知信息,信息传输的路径是一个无交叉的有向树。每条分配信道的物理链路只经过一次消息。
图4 组网内信息传输路径
基于上述假设,本文研究的无人机集群内部通信过程可以描述如下:在某个时刻,若干个无人机通过Ad hoc网络选择发送局部感知信息,所有友机都能及时接收信息并用于下个时刻的行为决策。当有nm个无人机发送自身感知信息时,有且只有nm(n-1)条链路需要信道资源。根据MAC协议,除去用于路由广播的信道带宽,剩余带宽大小为B的信道用于传输信息,在不考虑划分隔离带的情况下,每条链路分得均等大小的带宽用于传输编码后的信息。
无人机在每个时刻根据当前态势做出关于运动行为的决策,以保证有利态势,同时通过监听信道做出关于通信行为的决策,实现态势共享。行为的优劣取决于策略模型。在策略模型μi(ai|oi,m-i)已知的情况下,可以估计出策略带来的累计奖励,值越大,说明模型越好。因此,需要选择合适的方法来求解无人机的动作策略模型。以多智能体深度确定性策略梯度算法(Multi-agent Deep Deterministic Policy Gradient, MADDPG)为代表的MDRL方法以无监督学习方式在无人机训练过程中通过对行为试探和奖励不断反馈,形成行为策略决策知识,这种方式能够在不确性噪声和外部环境动态变化情况下得到行为最优策略解,而无须匹配系统状态与行为关系知识数据[14-15],如图5所示。
图5 基于MDRL的无人机策略训练方法
2.1 基于带宽约束的通信行为奖励机制
信息交互能克服多智能体训练环境非平稳性,使得无人机在训练过程中学习到更好的策略并在执行过程中能做出更好的决策。传统的MDRL方法中,Agent在每个决策控制周期中模拟信息交互来获取全局感知用于决策。为了改进这种低效的通信方式,适用于带宽有限的战场环境,需要设计一个合适的奖励机制来减少无人机的通信次数,降低信道带宽需求的同时,保证带宽资源利用率的最大化。
本文在理想的无噪声信道中进行研究,根据奈奎斯特定理,计算信道带宽为B的信道容量[16],即理想低通信道下的一个时刻间隙最多可以传输的信息量为
Rmax=2Blog2K
(2)
其中,K表示每个码元离散电平的数目。
在相邻时刻间隙内,机间通信的信息量大于信道容量时,传输的信息会发生差错或失真。因此,当nm个无人机选择发送感知信息时,相邻时刻间隙内传输的信息量应满足每条物理链路传输的信息量不超过该链路分得带宽的信道容量,即LNb≤2Blog2K/nm(n-1)。在信道带宽B、集群编组数量n和无人机感知信息编码方式LNb确定时,可知一个时刻最多允许2Blog2K/(n-1)LNb个无人机发送感知信息。
根据上述约束条件,关于无人机通信动作的奖励值计算如下:
Rcomm,i=kcomm[nm-2Blog2K/(n-1)LNb]2
(3)
其中,kcomm<0,在上述奖励机制下,无人机i在每个时刻通过对信道监听,判断当前占用带宽的无人机个数nm。当nm<2Blog2K/(n-1)LNb,带宽资源充足时,鼓励无人机i发送信息来获得更大的奖励值;相反,带宽资源不足时,nm>2Blog2K/(n-1)LNb,无人机i发送消息会减小奖励值Rcomm,i。只有通信无人机的数量nm接近2Blog2K/(n-1)LNb时,整个集群内部信息交互获得的奖励值最大。
2.2 基于带宽约束和历史信息的模型训练方法
受带宽资源限制,无人机无法时刻保持通信。如果没有接收到友机的感知信息,无人机需要使用历史信息作为当前决策模型的输入信息来保证一定的有效协同。Wang等人针对多智能体部分可观测环境提出Recurrent MADDPG(R-MADDPG),使用长短期记忆模型(Long-short Term Memory,LSTM)来记忆之前时刻接收到的信息作为历史信息,用于非连续通信场景下的多智能体协同决策问题[17]。
如图6所示,无人机的策略模型采用Recurrent Actor-Critic网络进行训练。R-Actor网络是递归神经网络对行为策略函数μ的模拟,参数为θμ。R-Critic网络是递归神经网络对状态评价函数Q(s,a)的模拟,参数为θQ。R-Actor网络和R-Critic网络分别用hμ、hQ存储各自网络隐藏层的上一时刻历史状态信息。
图6 基于LSTM的策略训练-执行模型
1)在模拟战场环境中训练过程。
在某一时刻,无人机i的R-Actor网络以自己的感知信息oi和接收到其他无人机的感知信息m-i为输入。受带宽限制可能无法接收到部分无人机的感知信息,利用存储的隐藏层历史状态hp来代替缺失的感知信息。R-Actor网络将无人机i的通信行为和运动行为输出到训练环境中,得到反馈奖励Ri。上述过程作为无人机i的状态转移数据
Ri=Rcomm,i+Rtask,i
(4)
其中,Rcomm,i是环境对无人机通信行为的奖励,Rtask,i是环境根据作战任务对无人机i运动行为的奖励。
无人机i的R-Critic网络随机从经验池中抽取一批无人机在同一时刻的状态转移数据,组成集群的状态转移数据〈s,a,s′,R〉作为学习样本,其中,s=〈o1,…,on〉,a=〈a1,…,an〉。通过贝尔曼方程计算当前行为带来的累计奖励,然后与R-Critic网络输出Q(s,a)的值进行比较,利用上述偏差L(θQ)使用梯度下降的方法更新θQ,基于累计奖励期望值函数J(μi)的策略梯度更新θμ。行为策略模型训练流程如表2所示。
表2 无人机行为策略模型训练流程
2)在真实战场环境中执行过程。
无人机i的行为策略模型μi训练完成后,根据自身感知信息oi和从其他无人机接收到的感知信息m-i做出行为决策,由R-Actor网络输出当前有利于态势的行为,指导无人机运动控制和信息发送。
为了验证所提方法的有效性,本文在课题组自建的无人作战Swarmflow仿真平台中模拟了带宽受限作战场景下的无人机空中对抗,在OpenAI开源的多智能体训练环境中完成Agent的策略训练[18]。
3.1 实验案例
如图7所示,该仿真环境基于大洞山卫星地图模拟了真实的空域作战环境,选取2 000×2 000的空域作为交战区域。在该空域内,敌我双方的无人机群以2∶4兵力态势进行对抗,无人机以离散的时间步长同时进行决策并采取行动。
图7 Swarmflow仿真平台下的训练环境
1)状态空间。分为局部空间信息和全局空间信息。局部空间信息指由机载传感器感知范围内的局部信息,这里设定无人机只能感知自身所在空域的坐标;全局空间信息由每个无人机所感知的坐标组成。
2)行为空间。每架无人机的行为分为运动、通信两种,其中,运动行为包含前向速度和航向角;通信行为包含发送信息和静默。
3)奖励函数。奖励函数设计的目标是让无人机学会有效完成作战任务和高效利用带宽资源。
将空中对抗任务简化为对抗性质的协同攻击,双方的作战目标是尽可能通过协同来攻击对方获得奖励,假设无人机i可以目测敌机与自己的方位角εj。任务得分规则参照文献[19]的对抗实验。如果一方有两架以上的无人机和敌方一架无人机相遇,参与攻击的无人机将获得奖励,被围攻的敌机将得到负奖励,反之亦然。同时,无人机i的航向角φi大小越接近于目标敌机j的方位角εj,得到的负奖励值越小。
表3 无人机行为奖励计算方式
3.2 实验设置
对抗双方均采用相同的训练方法来训练各自无人机的策略模型。
1)实验硬件环境。在联想PowerEdge T630塔式服务器上进行训练,服务器配置包括:内存16 G,处理器Intel Xeon E5-2660,一块集成显卡Matrox Electronics SystemsLtd G200R2和两块GeForce RTX 2080 Ti独显。
2)实验软件环境。使用Win 10操作系统和Python3.6解释器。算法的环境依赖包括OpenAI Gym 0.10.5,tensorflow 1.8.0,numpy 1.14.5。Agent的行为策略模型(R-Actor网络)和效用评估模型(R-Critic网络)均为三层全连接神经网络,隐藏层为64个LSTM单元。
3)训练参数。训练参数设计具体如表4所示。
表4 实验相关参数设定
4)实验方法。为验证设计方法可以在带宽有限条件下保持无人机的协同能力,对训练中Agent在每个决策周期内获取其他Agent位置信息的数量进行限制,来模拟带宽受限环境,分别在不同带宽条件下(改变最多支持发送消息的无人机数量)各自重复了12 000次实验,对算法的奖励曲线和Agent的实际表现进行对比分析。
3.3 仿真结果及分析
为验证设计方法在有限带宽条件下保持多Agent任务协同能力,用单位时间(每个仿真时间步长内)可发送位置信息的无人机数量n来代表可用带宽的大小,在不同带宽大小下重复了实验。
图8描述了不同带宽条件下己方无人机平均奖励值曲线,结果表明,带宽越小,无人机策略学习的速度越慢,同时训练前期的奖励值越小。但经过一定时间的训练后,都能学习到有效的行为策略,具体表现为整个集群能获得正向奖励值,且可用带宽较小(n=2)场景下的策略收益(奖励值)与可用带宽较大(n=4)场景下的策略收益相近。
图8 不同带宽条件下己方无人机平均奖励值曲线
图9是不同带宽条件下己方无人机通信行为的奖励曲线,结果表明无人机通过训练能自主调整通信动作适应带宽条件,表现为因违反带宽约束发送消息而得到的奖励值,数值随训练而增加。
图9 不同带宽条件下无人机通信行为的奖励曲线
表5和图10是在不同带宽限制条件下随机抽取20轮训练中己方无人机的任务表现,研究人员注意到,随着可用带宽的减少,无人机的任务表现(平均协同攻击次数)会下降,但仍然会学习如何实现任务目标(协同攻击)。通信资源平均利用率的计算方式如下:
表5 己方无人机的平均协同攻击次数、平均被攻击次数和通信资源平均利用率
(5)
为进一步验证方法的稳定性,对随机选取的20轮实验中己方无人机集群的任务表现进行分析。图10中黑线表示20次训练以均值为中心的置信区间,即20次实验结果的误差,在式(3)所示的通信行为奖励机制下,Agent表现出的协同攻击次数不稳定。将代表己方4架无人机的Agent在每轮实验中发送消息的总次数绘制成图11所示的散点图,来观察每个无人机的通信行为。研究发现,尽管整个多Agent系统在通信行为上基本满足带宽的限制条件(见图9),但单个Agent的通信行为表现并不可靠(存在个别无人机频繁发送信息占用信道带宽和长时间静默),无人机应该在满足带宽限制条件的基础上,尽可能地进行信息的交互来保证决策的精度。
图10 不同带宽条件下无人机任务表现
图11 20轮训练中的无人机通信次数
对于上述问题的分析:式(3)给出了无人机i通信行为的奖励机制,一定程度上避免了频繁通信的问题。但在训练过程中,无人机策略网络更新受全局Q(s,a)指导,变量nm作为全局变量,奖励机制对整个集群每个时刻的通信行为有指导作用,对单架无人机的通信行为影响较小,每架无人机不清楚自身通信行为对全局Q(s,a)的影响,导致个别“惰性”无人机长时间保持静默,造成其他无人机因长时间缺少“惰性”无人机的位置信息而降低决策精度。
3.4 基于资源分配优化的奖励机制
(6)
其中,nmax表示大小为B的带宽最多支持发送消息的无人机数量,σ为系统方差。无人机i可以通过信道监听获得acomm的值。图12是改进奖励计算方式后,不同带宽条件下己方无人机通信行为的平均奖励值曲线。
图12 改进后己方无人机通信行为的平均奖励曲线
区别于式(3)的奖励计算方式,改进后的奖励机制中既包含了对整个集群通信的全局指导,又包含对每个无人机通信行为的指导。无人机i在每个时刻通过对信道监听,判断当前占用带宽的无人机个数nm。当带宽资源充足时,nm
表6 改进后的平均协同攻击次数、平均被攻击次数和通信资源平均利用率
图13 改进后不同带宽条件下无人机任务表现
图14 改进后不同带宽条件下无人机任务表现
在训练后期,选取任意3个时刻的战场态势进行可视化。图15截取了3个时刻的空战态势,可以看出蓝方(己方)无人机学会了围攻和支援等智能化行为,在训练收敛后的策略指导下,会主动采取合作攻击的方式,避免独自作战。
图15 空中对抗仿真结果
在复杂多变的战场环境下,带宽通常无法满足信息交互的需求。目前以MADDPG为代表的MDRL方法能在一定程度上实现无人机之间的自主协同决策,但其低效的信息获取方式和通信资源利用方式不利于其在战场环境下的应用。
本文在Dec-MOMDPs基础上提出基于通信的无人机自主行为决策模型。基于问题研究假设和信息论基本知识,将通信资源分配问题作为无人机通信行为决策问题的优化目标,并在R-MADDPG基础上完成训练。仿真实验结果表明,本文的方法能在一定程度上提高无人机在行为决策过程中的通信效率,较好地适应不同带宽条件下的任务场景,在带宽有限条件下,为无人机集群自主作战提供技术参考和方法借鉴。
猜你喜欢链路信道时刻冬“傲”时刻环球人物(2022年4期)2022-02-22天空地一体化网络多中继链路自适应调度技术移动通信(2021年5期)2021-10-25捕猎时刻小资CHIC!ELEGANCE(2021年32期)2021-09-18基于星间链路的导航卫星时间自主恢复策略空间科学学报(2020年3期)2020-07-24FRFT在水声信道时延频移联合估计中的应用系统工程与电子技术(2016年7期)2016-08-21基于导频的OFDM信道估计技术北京信息科技大学学报(自然科学版)(2016年5期)2016-02-27一种改进的基于DFT-MMSE的信道估计方法华东理工大学学报(自然科学版)(2015年4期)2015-12-01基于3G的VPDN技术在高速公路备份链路中的应用中国交通信息化(2014年3期)2014-06-05一天的时刻小学阅读指南·高年级版(2014年2期)2014-05-27一种基于GPU的数字信道化处理方法现代防御技术(2014年6期)2014-02-28