刘 满 张宏军 程 恺 郝文宁 王之腾
近年来,以深度强化学习为代表的AI 技术在Atari[1]、围棋[2-3]、王者荣耀[4]、星际争霸Ⅱ[5]等游戏中取得了巨大的成功,显示了强大的态势感知和空间探索能力.同时,军事智能化的需求也在推动AI 技术在军事决策领域的应用,战术级兵棋以随机的方式模拟战争中的动态过程,能够为军事智能决策技术提供贴近真实战争的决策背景和试验环境.然而,深度强化学习在解决军事决策问题上存在两个明显不足:一是端到端的黑箱模型限制了模型的可解释性,使其难以形成人在回路的指挥控制方式,同时人们也不知道决策模型的推理过程;
二是深度神经网络学习到的参数只适用于特定场景的状态到动作的映射,当作战场景有较大改变,深度神经网络难以迁移并适应新的作战场景.另外,军事决策环境也面临状态空间巨大、多实体协同、长时依赖、不完全信息等难以解决的问题.在战术级兵棋的决策环境中,深度强化学习仅仅解决了少量棋子联合控制的问题[6-7].因此,鉴于深度强化学习在实际应用方面面临的重重困难,从其他技术角度探索军事智能决策的应用仍然值得研究.
传统的计算机生成兵力(computer generated forces,CGF)是作战仿真中重要的技术之一,模仿真实的作战实体,对仿真中的虚拟实体进行行为控制.它借鉴了很多AI 领域的技术,如有限状态机[8-10]、规则系统[11-13]、软计算技术[14-16]、自动规划[17-19]等方法,这些方法基本上都是基于专家知识进行构建,从定性分析的角度进行决策,能够按照人类逻辑决策运行,具有适应范围广、逻辑清晰、可解释性强的优点,但是这类方法的决策逻辑来源于专家知识的程序化,其“条件-结果”式模式映射个数有限,导致行为模式比较固定,缺乏灵活性和鲁棒性.
随着大数据和神经网络技术的发展,一些学者尝试使用人工复盘数据,从量化分析的角度对兵棋的行为进行决策.石崇林从兵棋数据的采集、处理、分析3 个角度,介绍了兵棋数据处理的一些方法,并集成这些方法设计了兵棋推演数据分析原型系统[20].PAN 等通过分析地形因素和复盘数据中的威胁因素,并用权重因子对信息素加权,以合成值估计敌方棋子可能的位置,得到top-3 的预测准确率为70%[21].张可等有效整合了兵棋专家知识的模糊推理和兵棋复盘数据的学习,从而提高了地图关键点的推理质量[22].刘满等通过挖掘兵棋历史推演数据,提取多个位置评价的指标,利用多指标综合评价软优选算法和兵棋基本规则输出棋子的下步行动[23].量化分析有效整合了复盘数据中的历史信息和当前的态势信息,以综合评估的结果支持量化决策,具有较高的灵活性和鲁棒性,但是这种决策方法需要大量高质量的人工复盘数据,这一条件往往很难满足.
鉴于以上两类行为决策方法的优缺点,本文创新性地将它们结合起来,进行优势互补,提出了知识与数据互补的行为决策框架,用于兵棋多实体的指挥控制.该框架集成了知识推理和数据挖掘的方法,不需要人工复盘数据,将知识、数据与学习融为一体,形成基于知识驱动的决策算法处理宏观动作,基于数据挖掘的软决策算法处理微观动作,通过自对抗复盘数据进行迭代学习,提升决策模型能力.基于这一决策框架,编程实现了一个能够自主决策的兵棋AI.该兵棋AI 先后多次参加全国性战术级兵棋比赛,在2021“庙算杯”人机对抗测试赛1 中取得总成绩第3 名,图灵测试第2 名,展现了较好的对抗能力和决策灵活性.
1.1 战术级兵棋环境及其行为决策特点
兵棋是运用规则、数据和阶段描述实际或假定的态势,对敌对双方或多方的军事行动进行模拟的统称[24-25],是分析战争的重要手段.战术级兵棋是指单方兵力规模在营及以下的兵棋系统,其智能决策主要内容是根据盘面上的不完全态势,判断决策出作战实体的行动.该实体行动具有4 个明显的特点:规则性、目标性、位置依赖和高度协同.规则性是指实体行动必须遵循兵棋系统的所有规则;
目标性是指实体行动必须以作战目标为导向;
位置敏感是指作战实体必须依靠合适的地形地物才能保护自己并发挥武器效能;
高度协同是指各作战实体间必须相互配合协同作战.因此,战术级兵棋智能决策是“多实体在兵棋规则的限制下,高度协同配合,在合适的时间,棋子能够移动到具有战术优势的地点,对敌人实施打击,最终完成作战目的”.可以看出战术级兵棋行为决策具有很强的领域性和专业性,传统方法多是基于知识推理的方法实现兵棋实体的行为自主决策.
1.2 基于知识推理的决策算法
兵棋行为决策中的知识是指人类在长时间的兵棋推演中认识和总结的行为规律和制胜方法,它能以战法、策略等形式用文字概略描述出来,但是没有明确的界定,不同人的理解和描述是有区别的.编程人员可以和兵棋专家合作,以计算机语言的形式,将这些战法和策略进行梳理、分解,形成领域知识库,并以逻辑推理的形式模仿专家的推理进行决策.
基于知识的推理是AI 技术最早期的经典方法之一,通过专家知识构建的规则库,用逻辑的方式实现决策,是符号主义的代表.在作战仿真中,CGF 技术在作战实体行为决策的研究中大量应用了基于知识推理的算法,如有限状态机(finite state machine,FSM)[8]、行为树(behavior tree,BT)[10]、决策树(decision tree,DT)[11]、规则推理(rule based reasoning,RBR)[9]、分层任务网络(hierarchical task network,HTN)[13]等,用于作战实体的行为决策.这些算法中,FSM 和BT 的知识库设计和模型构建都比较简单,易于维护,在CGF 和游戏的行为控制中得到广泛应用[10,26-28].
FSM 是具有基本内部记忆功能的抽象机器模型,表示有限离散状态以及这些状态之间的转移的数学模型[29],其在任意时刻都处于有限状态集合中的某一个状态,当满足转移条件中的某一确定事件时,FSM会从当前状态转移到另一个状态.FSM 有着简单的优势,采用状态机来实现AI 更符合思维的朴素表达.对于一些决策逻辑简单的AI,用状态机更加便捷,但是面对一些复杂的AI 逻辑时,随着状态的增多,其状态转移列表将极度膨胀,导致设计难度急剧增加.
BT 是适用于控制决策的分层节点树,以解决可伸缩性问题[28].行为树中有叶节点和组合节点,同时把行为划分成了很多层级,低层级的行为为叶结点,低层级的行为能够组合成较高层级的行为,以组合结点表示.行为树在执行的时候,会执行深度优先搜索,依次达到末端的叶节点,从而选择出叶结点(底层级行为).
BT 是FSM 的改进,将状态高度模块化,减少了状态转移条件,使状态变成一个行为,从而使模型设计更加容易.行为树具有面向对象的特征,行为模块间的藕合度相对较低,许多通用的子模块在新建行为树时可以被重用以减少工作量.但是当决策逻辑复杂时,行为树的组织结构会迅速扩张,这会造成行为树的可读性降低[30].
1.3 基于数据挖掘的软决策算法
兵棋数据按产生的方式可以分为想定数据、环境数据、规则数据、复盘数据和态势数据.想定数据是指一场兵棋推演对地图类型、实体、作战目标等规定的初始化数据;
环境数据是指兵棋系统对战场环境的量化表示而产生的数据,如地图数据等;
规则数据是指兵棋系统对作战实体作战性能、作战规则等描述而产生的数据;
复盘数据是指兵棋推演系统在推演过程中记录下来的推演数据.态势数据是指在兵棋推演过程中产生的描述战场动态情况的瞬时数据.想定数据、环境数据、规则数据是兵棋系统固有数据,是静态不变的,复盘数据随着兵棋推演的增多而不断增加,是增量数据,态势数据是比赛过程中的实时动态数据.这些兵棋数据蕴含了大量兵棋行为决策的知识,可以通过数据挖掘等方法将它们转化为支持决策的量化数据.
文献[23]提出了兵棋数据挖掘与融合的方法,提取了多个与棋子位置选择相关的指标,通过多指标综合评价优选算法决策出棋子的移动位置.通过对复盘数据挖掘得到敌方位置部署的先验知识,并与当前态势数据融合,得到敌方位置部署.同时通过对复盘数据的挖掘也能得到我方棋子未来位置的先验知识.将这些信息与环境数据、规则数据进一步融合计算,得到评估位置的多个指标:敌情指标、我情指标和环境指标.不同棋子在位置选择时对这些指标的偏好不同,可以用人工设定的加权系数对这些指标进行综合.
为了解决多指标综合评价,并最终选择棋子移动位置,提出了多指标综合评价优选算法.
对多个标准化之后的指标进行综合,令
其中,ui为第i 个终点位置的加权综合评价值;
vij为第i 个位置的第j 个标准化指标值;
ωj为第j 个指标值的加权系数.
将综合评价值转换为能够调控热度的概率值,并依据概率的大小来选择方案:
基于数据挖掘的软决策方法充分利用了兵棋数据特别是态势数据中的信息,优选出的棋子移动位置兼顾了质量与变化,配合规则推理,使兵棋AI 的决策具有高度的灵活性.
但是,兵棋对抗推演是小众的竞技项目,大量高质量的人工复盘数据集很难得到,这一前提条件限制了该算法的应用范围.
2.1 兵棋实体动作分类和分层决策
在决策领域,按问题的量化程度,决策可以分为定性决策和定量决策.定性决策是指决策问题的诸因素不能用确切的数据表示,只能进行定性分析的决策.定量决策是指决策问题能量化成数学模型并可进行定量分析的决策.战术级兵棋的具体原子动作可以表示为动作名称和动作参数的联合,根据有无动作参数和动作参数的复杂程度,可以将棋子的动作分为宏观动作和微观动作.宏观动作是指动作的组合、参数未知的虚动作或简单参数的动作.微观动作是指具有复杂参数的动作.一般来说,宏观动作不需要求解复杂的动作参数,可以从定性决策的角度,以态势信息为判断条件,利用专家知识和兵棋规则推理得出;
而微观动作需要求解复杂的动作参数,如机动终点、机动路线、射击目标等,可以从定量决策的角度,对兵棋数据进行数学计算,利用量化评估的方式选出离散的动作参数.可见,宏观动作和微观动作并没有明显的区分界限,二者关注动作的方式不一样,宏观动作关注的是动作名称,即要不要执行某个动作,而微观动作关注的是动作的复杂参数,即动作的具体指向内容.
对于兵棋多agent 宏观动作决策,既要考虑集体行为,也要考虑个体行为,本文提出FSM 与BT 分层决策的方法.FSM 建模兵棋多agent 作战任务的转换,可以从整场战争的角度优化决策模型;
BT 建模单个agent 在给定任务条件下动作的输出,完成单个agent在特定任务条件下的局部优化.图1 展示了FSM 和BT 分层的多agent 宏观动作决策流程,FSM 根据整场比赛的情况进行任务转移,输出作战任务,单个agent 根据作战任务,考虑局部态势情况,通过行为树决策输出动作.
图1 FSM 和BT 分层的多agent 宏观动作决策框架Fig.1 The multi-agent macro-action decision-making framework based on FSM and BT
FSM、BT 这种行为模型大量地依赖领域相关人员参与构建,能够较好地模拟人类顶层的推理思维,适宜兵棋智能对抗中宏观动作的决策.但是,包含复杂参数的微观动作,需要对态势数据、地图数据充分响应,基于知识的推理算法难以处理.常用的解决思路是基于方案设计,即领域专家提前预想多种情况,并充分分析地图,将复杂的参数(如机动终点)提前以脚本的形式固化下来,形成多套方案供决策模型选择.但是这种做法使模型输出的行为缺乏灵活性,同时决策模型也难以迁移到其他推演想定.
2.2 知识与数据互补的行为决策算法
基于数据挖掘的软决策算法具有灵活的优势,但是需要人工高质量的复盘数据;
基于知识驱动的决策算法利用兵棋专家的领域知识进行决策,无需人工复盘数据,但是难以处理复杂的参数决策.本文将这两种算法结合起来,提出了知识与数据互补的行为决策方法.
图2 展示了知识与数据互补的行为决策算法框架,在构建知识库时,专家将不再对地图具体点进行分析,而是根据战场进程,设定agent 的任务区域和任务区域内选点的指标权重.基于知识驱动的决策算法对整场推演进行战术筹划,使用FSM 对多agent任务进行决策,使用BT 对agent 动作进行决策,输出动作名称、任务区域和指标权重.在任务区域和指标权重给定的条件下,利用基于数据挖掘的软决策算法,计算出棋子在任务区域内的移动终点.当然,也可以使用数据计算的方法得到其他动作参数,如机动路线、射击目标等.综合动作名称和动作参数,就可以解析出原子动作命令.另外,基于数据挖掘的软决策算法需要复盘数据作为支撑,本文使用随机数据让决策模型先运行起来,从而得到自我对战的复盘数据,进而通过迭代优化,提升复盘数据质量,进而优化整个决策模型的质量.
图2 知识与数据互补的行为决策框架Fig.2 The behavioral decision-making framework based on complementary knowledge and data
知识与数据互补的行为决策算法,将全局规划、行动推理交给基于知识驱动的决策算法处理,将动作参数的计算和优选交给基于数据挖掘的软决策算法处理,分别发挥了两种算法的优势,实现了兵棋AI在无人类复盘数据指导下的灵活决策.表1 对3 种决策算法进行了对比,可以看出知识与数据互补的行为决策算法具有以下几个优点:
表1 3 种决策算法比较Table 1 Comparison of 3 kinds of decision-making algorithms
1)大大减轻了专家构建知识库的工作量.专家不再需要仔细分析地图上每个点的战术价值,只需要预想比赛进程,大致设定任务区域,并设定选择位置的原则(指标权重).
2)决策具有灵活性.因为软概率优选机制,基于数据挖掘的软决策可以灵活确定棋子移动位置.
3)可移植性较高.不同对抗想定条件下,一般使用的策略是不同的,如进攻战斗的策略和防御战斗的策略不同.基于知识驱动的决策算法需要根据不同的想定进行针对性设计,但是基于数据挖掘的软决策算法是通用的.
4)决策效果较好.利用专家知识确定的区域进行全局位置优化,利用多指标评估的方法进行局部位置优化,决定了最终棋子的移动位置战术价值较好,从而保证了最终决策效果较好.
2.3 知识与数据互补的兵棋AI 框架设计
OODA 环理论(observe,orient,decide,act)提供了一种以观察、判断、决策、行动循环来描述对抗的方法[31],被广泛应用于军事决策过程模型的研究.反映到决策行为模型中,观察和行动是与外界环境交互的过程,分别完成了模型的输入(战场态势)和输出(作战行动).判断和决策运行于模型的内部,完成了决策生成的过程.
本文基于知识与数据互补的决策算法,依照OODA 环的流程,设计了战术级兵棋AI 框架,分为4个层次:数据资源层、数据处理层、决策支持层和决策算法应用层,整体结构如图3 所示.
图3 知识与数据互补的兵棋AI 框架Fig.3 The wargame AI framework based on complementary knowledge and data
数据资源层主要是收集、处理和存储兵棋智能决策相关的大量基础数据.如作战想定数据、战场环境数据、军事规则数据、战场态势数据和复盘数据集等.
数据处理层主要是对数据资源层的数据进行处理加工,分为两个类别:静态数据挖掘和动态数据融合.静态数据挖掘提取与决策相关的数据,获取先验的“量化知识”.通过数据融合的方法,在比赛过程中对态势数据作出实时响应,更新“量化知识”;
最后,通过综合计算得到支持决策的多个指标数据.
决策支持层主要提供决策算法应用层需要的元素.分为指标数据和专家知识库.指标数据由数据处理层计算得出,用于支撑基于数据挖掘的软决策算法.专家知识库主要是存放作战决策中不易被量化、用程序描述的决策逻辑,分为条件库、任务库、超参数库和动作函数库.
决策算法应用层使用知识与数据互补的行为决策算法,输出动作名称和动作参数,调用动作函数即可生成棋子原子动作指令.
兵棋AI 决策按照OODA 环循环执行,调用相关算法模块,完成态势接收和动作输出.感知和行动主要完成接收并整理态势和原子动作命令的生成和输出.判断过程调用动态数据融合,完成指标数据的计算.决策过程调用知识与数据互补的行为决策算法,输出动作名称和动作参数.
知识与数据互补的兵棋AI 框架是有机统一的系统,包括但不限于以上列举的决策算法,提供了一个将数据处理、机器学习、多属性决策、知识推理等多种算法有机组合,实现兵棋多agent 协同控制的框架.在这个框架的指导下,可以针对不同兵力规模、多种想定进行针对性的兵棋AI 设计.该框架具有以下几个显著的优势:
1)各类算法的包容性.OODA 环的决策流程,是以功能为牵引,在各功能的实现上,可以应用多种算法.特别是提供了一种将基于知识驱动的决策算法和基于数据挖掘的软决策算法高效融合的思路.
2)兵力规模的可扩展性.只要根据不同兵力规模设计相适应的有限状态机,复用其他模块,就可将该AI 模型扩展到不同的兵力规模.
3)多种想定的适应性.兵棋想定主要是对兵棋系统的地图、兵力、作战目标等战争要素进行设定.该兵棋AI 框架能够读取特定想定的基础数据,进行相应的计算,对各种想定适应性较强.
4)人机混合的融合性.FSM 对分队作战任务进行控制,BT 对agent 行为进行控制,这种分层设计符合军事指挥的层次结构.因此,针对人机混合智能,可以用人类决策代替FSM,由指挥员给各个分队或单个agent 下达任务,单个agent 根据具体任务自主决策,其他模块无需改变,因此,其人机混合的融合性较好.
5)决策结果的高效性.基于该框架实现的兵棋AI,在全国智能兵棋竞赛和第3 方组织的测评中,都取得较好成绩,验证了此类AI 框架决策的高效性.
3.1 基于知识驱动的决策模型和知识库设计
将分队作为一个整体,专家根据特定想定的内容,对整个推演过程按照作战阶段、阶段目标等进行划分,确定作战任务名称,而后设计转移条件和转移关系.分队作战任务是一个对象或函数,它遍历所有的棋子调用当前任务下的行为树函数.分队中的每个棋子根据分队任务设计行为树,对态势信息和自身的状态进行综合判断,输出棋子的动作名称、任务区域、指标权重等.所有作战任务形成作战任务库,所有转移条件形成条件库,所有经验参数放在超参数库中.可以为不同的作战想定设计特定的有限状态机,但作战任务库、转移条件库和超参数库可以复用.
对于行为树中用到的作战区域,可以通过计算的方法得到.用已知的夺控点和棋子坐标为定位点,通过设置相对距离,求出区域列表,也可以对区域进行集合运算.图4 展示了载人战车下车区域计算示意图,以装甲车起始位置和主要夺控点为定位点,求出两个环形区域,两个环形区域的交叠区(蓝色区域)为下车区域,这个区域离起始点和夺控点都比较近,便于战车快速到达,也便于棋子后续夺控任务的实施.
图4 战车下车区域求法示意图Fig.4 Schematic diagram for parking area of the combat vehicle
3.2 基于数据挖掘的软决策算法和多指标构建
以具体的例子介绍指标的构建和软决策算法的使用.对于图4 中给出的下车区域,使用基于数据挖掘的软决策算法求出具体的下车位置.
首先需要构建待选区域的评价指标,构建了5个与下车位置评估相关的指标,如表2 所示,指标权重的绝对值表示它们在综合指标中的重要程度,权重的正负决定了指标标准化的方式.
表2 下车待选点的评价指标和权重Table 2 The evaluation index and weight of the pre-parking point to be selected
正向标准化,表示指标值越大,标准化后的值也越大,公式为:
其中,vij为第i 个位置的第j 个指标,分别表示所有六角格第j 个指标的最大值和最小值.最终第j 个指标值大小被规范在[0,1]之间.
反向标准化,表示指标值越大,标准化后的值越小,转化公式为:
经过标准化处理后,不同尺度大小的指标规范在同一量纲下,便于比较和后续处理.
对评价指标标准化之后,使用式(1)~式(3)对待选位置进行软优选,最终得出下车位置.
根据不同情况下兵棋位置选择的需要,总共构建约20 个评价指标,并人工设置对应的指标权重供基于数据挖掘的软决策算法模块使用.
3.3 兵棋AI 编程实现
本文基于战术级兵棋即时策略推演平台“庙算·智胜”[32]编程实现了一个分队级兵棋AI.该分队级兵棋AI 使用python 语言,采用结构化、对象化的思想进行编程.兵棋AI 能够运行之后,还需要对决策模块进行优化:
1)优化知识数据.开启自对战模式,收集复盘数据并离线增量更新知识数据.如果有其他复盘数据集,也可以基于这个复盘数据集更新知识数据.
2)优化超参数.专家根据机机对抗的复盘回放,观察兵棋AI 的动作执行效果.针对AI 决策效果弱的地方,调整超参数库中的任务区域和指标权重,使兵棋AI 在移动位置选择上策略更优.同时,也可以调整行为树的结构,优化行为决策.
实现的兵棋AI 支持3 张地图共5 个想定,每个想定单独设计了有限状态机和行为树,所有想定共用任务库、条件库、超参数库和动作函数.将此分队级兵棋AI 命名为“道·思”.
“道·思”参加了全国“先知·兵圣-2019”战术级人机对抗挑战赛分队级比赛,取得前8 名.2021 年7月,基于该框架改进的兵棋AI 参加中科院自动化所主办的“庙算杯”人机对抗测试赛,总成绩排名全国第31.
随后,“道·思”参与了“庙算·智胜”人机对抗平台组织的AI 综合能力测评.测评对象为国内主要的5 个兵棋AI 团队开发的分队级兵棋AI.测评按照背靠背机、人机(48 名优秀级选手)对抗,通过主观和客观评估手段,对智能体的智能性、适应性、灵活性等能力特点给出多维度量化的综合评价.
表3 给出了5 支AI 队伍的人机对抗胜率和机机对抗胜率.总体看,“道·思”在5 支队伍中的排名处于中等,显示了较好的策略水平.测试中使用了临机想定,可以发现1 号AI 和2 号AI 的成绩下降较大,5 号AI 的成绩提升较大.说明3 号AI 和5 号AI 对不同想定适应更强,体现出更强的智能性.“道·思”在状态机和行为树的设计上对特定想定作了优化,使任务区域的范围限定较小,对临机想定的适应性不是太强,但是依然展现了较好的迁移能力.
表3 分队级兵棋AI 对抗胜率Table 3 The confrontation winning rate of unit-level wargame AI
参与对抗人员每场比赛之后,都会兵棋AI 对手打分,汇总情况如表4 所示,“道·思”在9 项评分中,取得3 项最高分,可见其智能性得到人类玩家的肯定.“道·思”在战法新颖、灵活多变、勇猛激进3 项高于平均分,在沉着稳妥这项低于平均分,反映出“道·思”基于数据挖掘,可以较好地分析态势和地形,能够主动进攻,战法比较主动.“道·思”在策略高明、武器运用、兵力协同3 项高于平均分,在反应迅速、地形利用2 项上低于平均分,可见基于状态机、行为树、动作函数、多指标综合评价软优选等技术的结合使AI 整体的策略、武器使用、兵力配合上表现优秀.但是基于数据挖掘的计算量较大,反应速度相对其他AI 队伍偏慢.另外,“道·思”倾向于主动进攻,而不是在隐蔽地形防守,因此,在地形利用上的评分也相对较低.
表4 人类选手给每个分队级兵棋AI 的主观评分Table 4 The subjective evaluation of unit-level wargame AI by the human players
通过智能兵棋竞赛结果和技术交流,总体感到目前国内智能兵棋决策技术处于不断进步之中,虽然深度强化学习算法具有最好的通用性,但是多agent 控制带来的技术困难,使之在兵棋智能博弈领域的应用有限,相关技术正在不断突破中[6-7].目前,对抗性能最好的兵棋AI 依然是依靠专家经验和精细的程序控制,虽然特定场景下表现出了优异的性能,但是学习能力和灵活性缺乏.本文提出的知识与数据互补的行为决策算法具有部分学习能力和灵活性,但是局限性也比较明显.一是学习能力较弱.对复盘数据进行迭代学习,其本质是挖掘对手的历史策略,并不能优化到最优点,这种学习方式与机器学习算法有本质区别.二是算法通用能力不足.基于知识驱动的决策算法需要构建专家知识库,具有很强的领域性,因此,算法通用性很差,需要大量的人工作业.三是对抗性能不优异.基于数据挖掘的软决策算法减少了知识推理的工作量,增加了算法的通用性和灵活性,但是其性能的提升依赖于复盘数据集,当没有真实比赛的数据集而只依靠有限的自对抗数据集,对抗性能表现并不突出.
本文针对没有人类高质量复盘数据的条件下,将基于知识驱动的决策算法和基于数据挖掘的软决策算法结合,提出了知识与数据互补的行为决策算法,并以该算法为核心,提出了知识与数据互补的兵棋AI 框架,最后编程实现了一个分队级兵棋AI,对抗结果显示,该兵棋AI 具有较高的灵活性,能够迁移到临机想定,对抗效果也较好,对军事智能决策的发展有一定参考价值.
下步将从3 个方面作深入研究,一是设计更为通用的FSM 和BT 决策体系,并研究HTN 等自动规划算法,使模型的可迁移能力更强;
二是优化基于数据挖掘的软决策体系,提升计算效率,同时利用深度神经网络的感知能力对评价指标进行计算.三是研究超参数的自动优化方法,减少专家工作量,同时提升模型决策能力.