(12)发明专利申请
(10)申请公布号 CN 112230552 A(43)申请公布日 2021.01.15
(21)申请号 202011192651.7(22)申请日 2020.10.30
(71)申请人 西北工业大学深圳研究院
地址 518057 广东省深圳市南山区高新南
九道45号西北工业大学深圳三航科技大厦25层
申请人 西北工业大学(72)发明人 袁源 赵力冉 孙冲
(74)专利代理机构 西安通大专利代理有限责任
公司 61200
代理人 马贵香(51)Int.Cl.
G05B 13/04(2006.01)
权利要求书2页 说明书6页 附图1页
(54)发明名称
针对离散时间多智能体博弈的抗干扰控制方法
(57)摘要
本发明提供针对离散时间多智能体博弈的抗干扰控制方法。包括:S1,构建基于离散时间的智能体模型;S2,基于智能体模型,针对多智能体博弈系统中智能体受到的未知扰动,设计离散干扰观测器,用于对未知扰动进行估计和消除;S3,基于智能体模型设计博弈策略,用于对智能体的成本函数进行优化使多智能体博弈系统达到唯一的纳什均衡状态;S4,基于干扰观测器和博弈策略,设计多智能体博弈系统的抗干扰控制器,对智能体的成本函数进行优化并对未知扰动进行估计和消除;S5,确定抗干扰控制器中参数的约束。本发明可以对扰动进行很好的估计和消除。
CN 112230552 ACN 112230552 A
权 利 要 求 书
1/2页
1.针对离散时间多智能体博弈的抗干扰控制方法,其特征在于,包括:S1,构建基于离散时间的智能体模型;S2,基于智能体模型,针对多智能体博弈系统中智能体受到的未知扰动,设计离散干扰观测器,用于对未知扰动进行估计和消除;
S3,基于智能体模型设计博弈策略,用于对智能体的成本函数进行优化使多智能体博弈系统达到唯一的纳什均衡状态;
S4,基于干扰观测器和博弈策略,设计多智能体博弈系统的抗干扰控制器,对智能体的成本函数进行优化并对未知扰动进行估计和消除;
S5,确定抗干扰控制器中参数的约束。
2.根据权利要求1所述的针对离散时间多智能体博弈的抗干扰控制方法,其特征在于,S1中,构建的智能体模型如下:
xi,k+1=xi,k+μ(ui,k+di,k) (1)单个智能体的模型中,xi,k+1表示第i个智能体在第k+1步的状态;xi,k表示第i个智能体在第k步的状态;ui,k表示第i个智能体在第k步的控制输入;di,k表示第i个智能体在第k步受到的扰动;μ表示步长。
3.根据权利要求2所述的针对离散时间多智能体博弈的抗干扰控制方法,其特征在于,S2中,首先定义:
di,k+1表示第i个智能体在第k+1步受到的扰动;然后建立
多智能体博弈系统的扩张状态方程:
对扩张状态方程建立干扰观测器:
其中,z1,i,k+1和z2,i,k+1分别是在第k+1步时干扰观测器对xi,k+1和di,k+1的估计量,z1,i,k和z2,i,k分别是第k步时干扰观测器对xi,k和di,k的估计量;αααα1、2、3和4分别是干扰观测器的参数;e1,i,k是干扰观测器对智能体状态xi,k+1的观测误差,定义为e1,i,k=z1,i,k-xi,k;
定义干扰观测器对扰动di,k的观测误差为e2,i,k,然后建立观测误差系统:
4.根据权利要求3所述的针对离散时间多智能体博弈的抗干扰控制方法,其特征在于,将第i个智能体的成本函数定义为数量,T是矩阵的转置符号;的偏导数;定义
2
其中N是智能体的总
代表第i个智能体的成本函数对自身状态
并对多智能
CN 112230552 A
权 利 要 求 书
2/2页
体博弈系统做出如下假设:多智能体博弈系统中智能体的成本函数为梯度博弈策略
对于自身状态xi
是严格的凸函数;F(x)是强单调且Lipschitz连续的;基于上述假设,S3中的博弈策略设计5.根据权利要求4所述的针对离散时间多智能体博弈的抗干扰控制方法,其特征在于,S4中,抗干扰控制器的控制律设计如下:
6.根据权利要求5所述的针对离散时间多智能体博弈的抗干扰控制方法,其特征在于,S5中,结合干扰观测器和控制律建立闭环系统的状态方程:
然后利用李雅普诺夫定理对多智能体博弈系统收敛性进行分析得到抗干扰控制器中参数要满足的约束。
7.根据权利要求6所述的针对离散时间多智能体博弈的抗干扰控制方法,其特征在于,对于参数矩阵
第一:对于步长μ,要满足
第二:对于给定的矩阵Γ=ΓT>0,参数矩阵Φ使得下列线性矩阵不等式有正定的解H=HT>0;
需要满足以下两个约束:
其中σ和δ是两个正常数,I是单位矩阵,γ满足0<γ<1。
3
CN 112230552 A
说 明 书
针对离散时间多智能体博弈的抗干扰控制方法
1/6页
技术领域
[0001]本发明涉及一种多智能体抗干扰的纳什均衡寻求控制方法,具体涉及针 对离散时间多智能体博弈的抗干扰控制方法。
背景技术
[0002]经过几十年的研究,博弈论已经在众多领域中得到了广泛的研究和应用, 例如社会学与经济学、航空航天、通信工程、控制工程等。同样的,博弈论 也为多智能体工程问题提供了有效的解决工具。在多智能体博弈系统中,每 个智能体都是一个自私的决策者,他们会尽力优化自己的成本函数,而每个 智能体的成本函数之间又存在着耦合关系。已有的应用包括城市交通协调控 制、无线通信、智能电网、多智能体的控制问题等。在这类问题中,通常目 的都是设计有效的博弈控制策略使系统能够达到纳什均衡状态,在这种状态 下,系统中的任何智能体都没有单方面改变状态的动机。大多数的研究都是 在个体不具备动力学或者没有干扰的情况下进行的。[0003]而在实际工程问题中,几乎所有的系统都会受到由模型不确定性、传输 波动、环境噪声或其他原因引起的某种干扰。博弈或者智能体受到未知扰动 的影响会出现在很多场景中,例如光信噪比的功率控制、智能电网管理、网 络化控制。然而对于在未知扰动存在时的多智能体博弈纳什均衡寻求问题的 研究相对较少。显然直接忽略扰动带来的影响是不合理的,因为存在于博弈 动力学的扰动会对博弈的结果造成影响。[0004]在各种抗干扰的方法中,干扰观测器可以实现未知扰动的准确估计并提 供一个前馈补偿项对扰动进行抵消,同时也有着很好的动态响应。而滑膜控 制能够克服系统的不确定性,对干扰和未建模动态具有很强的鲁棒性,对非 线性系统也有良好的控制效果。基于滑膜控制设计的观测器也已经展示出显 著的特性,尤其是超扭曲算法。但是关于超扭曲算法的研究绝大多数都是在 连续时间条件下,在离散时间系统中的研究很少。发明内容
[0005]本发明针对受到未知扰动的离散多智能体博弈系统,克服现有技术的不 足,提供一种针对离散时间多智能体博弈的抗干扰控制方法。[0006]本发明是通过以下技术方案来实现:
[0007]针对离散时间多智能体博弈的抗干扰控制方法,包括:[0008]S1,构建基于离散时间的智能体模型;[0009]S2,基于智能体模型,针对多智能体博弈系统中智能体受到的未知扰 动,设计离散干扰观测器,用于对未知扰动进行估计和消除;[0010]S3,基于智能体模型设计博弈策略,用于对智能体的成本函数进行优 化使多智能体博弈系统达到唯一的纳什均衡状态;[0011]S4,基于干扰观测器和博弈策略,设计多智能体博弈系统的抗干扰控 制器,对智能体的成本函数进行优化并对未知扰动进行估计和消除;
4
CN 112230552 A[0012]
说 明 书
2/6页
S5,确定抗干扰控制器中参数的约束。
[0013]优选的,S1中,构建的智能体模型如下:[0014]xi,k+1=xi,k+μ(ui,k+di,k) (1)[0015]单个智能体的模型中,xi,k+1表示第i个智能体在第k+1步的状态;xi,k表 示第i个智能体在第k步的状态;ui,k表示第i个智能体在第k步的控制输入; di,k表示第i个智能体在第k步受到的扰动;μ表示步长。
[0016]
进一步的,S2中,首先定义:di,k+1表示第i个智能体在 第k+1步受
到的扰动;然后建立多智能体博弈系统的扩张状态方程:
[0017][0018][0019][0020]
对扩张状态方程建立干扰观测器:
其中,z1,i,k+1和z2,i,k+1分别是在第k+1步时干扰观测器对xi,k+1和di,k+1的估计 量,z1,i,k和z2,i,k分别是第k步时干扰观测器对xi,k和di,k的估计量;αααα1、2、3和4分别是干扰观测器的参数;e1,i,k是干扰观测器对智能体状态xi,k+1的观测 误差,定义为e1,i,k=z1,i,k-xi,k。[0021]定义干扰观测器对扰动di,k的观测误差为e2,i,k,然后建立观测误差系统:
[0022]
[0023]再进一步的,将第i个智能体的成本函数定义为其中
N是智能体的总数量,T是矩阵的转置符号; 代表第i个智能体的成本函数对自身状态的偏导数;定义
并对多智能体博弈系 统做
出如下假设:多智能体博弈系统中智能体的成本函数策略
[0024][0025][0026]
对于自身状 态xi是严格的凸
函数;F(x)是强单调且Lipschitz连续的;基于上述假设, S3中的博弈策略设计为梯度博弈
再进一步的,S4中,抗干扰控制器的控制律设计如下:
再进一步的,S5中,结合干扰观测器和控制律建立闭环系统的状态方 程:
5
CN 112230552 A
说 明 书
3/6页
[0027]
[0028]
然后利用李雅普诺夫定理对多智能体博弈系统收敛性进行分析得到抗干 扰控制
器中参数要满足的约束。
再进一步的,对于参数矩阵第一:对于步长μ,要满足
需要满足以下两个约束:
[0029]
[0030][0031]
第二:对于给定的矩阵Γ=ΓT>0,参数矩阵Φ使得下列线性矩阵不等式 有正定
的解H=HT>0;
[0032]
其中σ和δ是两个正常数,I是单位矩阵,γ满足0<γ<1。
[0034]与现有技术相比,本发明具有以下有益的技术效果:[0035]本发明可以对扰动进行很好的估计和消除,在多智能体博弈问题中,扰 动的存在是不能忽略的,因为未知扰动会对博弈的结果造成影响。本发明所 设计的抗干扰控制器可以实现对智能体自身的成本函数进行优化的同时,对 扰动进行估计和抵消,使系统达到唯一的纳什均衡状态。本发明与实际工程 问题相贴合,采用离散的智能体模型进行分析设计,而且设计的抗干扰控制 器对扰动的约束和信息要求很少,不需要知道扰动的具体形式,不约束扰动 有界,便于工程实现;通过设计干扰观测器对未知扰动进行观测估计,再结 合博弈策略设计抗干扰的博弈控制策略,从而使受到干扰的系统最终达到纳 什均衡。附图说明
[0036]图1为本发明的流程图。
[0037]图2为本发明实施例的结果数据。
具体实施方式
[0038]下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明 的解释而不是限定。
[0039]本发明首先构建智能体的博弈模型,其次针对系统中智能体受到的未知 扰动,设计离散扰动观测器,对未知扰动进行估计;然后对多智能体系统设 计博弈策略,对智能体的成本函数进行优化使系统达到唯一的纳什均衡状态; 之后结合扰动观测器和梯度博弈策略设计抗干扰控制器;最后通过对系统的 稳定性分析确定抗干扰控制器中参数的约束;本方法将博弈论和干扰观测器 应用在多智能体系统中,能够在消除未知扰动影响的同时优化智能体的成本 函数,使系统达到纳什均衡;本发明结合实际工程中会出现的扰动,抗扰动 能力强,适用于工程应用。
6
[0033]
CN 112230552 A[0040]
说 明 书
4/6页
如图1所示,本发明的具体实施步骤如下:
[0041](1)构建智能体模型[0042]xi,k+1=xi,k+μ(ui,k+di,k) (1)[0043]单个智能体的模型中,xi,k+1表示第i个智能体在第k+1步的状态;xi,k表 示第i个智能体在第k步的状态;ui,k表示第i个智能体在第k步的控制输入; di,k表示第i个智能体在第k步受到的扰动;μ表示步长,在本发明中步长是 定值。[0044]在多智能体博弈系统中,每个智能体都会有与系统状态相关的成本函数, 第i个智能体的成本函数定义为
其中
N是智 能体的总数量。
代表第i个智能体的成本函数对自身状态 的偏导数;定义
其中 T是矩阵的转置符号。
[0045][0046][0047]
本发明对于多智能体博弈系统做出如下假设:1)系统中智能体的成本函数
对于自身状态xi是严格的凸函数;
2)F(x)是强单调且Lipschitz连续的。[0048](2)设计干扰观测器
[0049]在各种抗干扰的方法中,干扰观测器可以实现未知扰动的准确估计并提 供一个前馈补偿项对扰动进行抵消,同时也有着很好的动态响应。而滑膜控 制能够克服系统的不确定性,对干扰和未建模动态具有很强的鲁棒性,对非 线性系统也有良好的控制效果。因此本发明基于滑膜控制设计干扰观测器。[0050]为了设计干扰观测器,首先需要建立系统的扩张状态方程。需要定义:
di,k+1表示第i个智能体在第k+1步受到的扰动。
[0051][0052][0053][0054]
然后通过将扰动di,k扩张为新的状态得到扩张后系统的状态方程:
对智能体的扩张状态方程建立干扰观测器:
其中,z1,i,k+1、z2,i,k+1分别是在第k+1步时干扰观测器对xi,k+1和di,k+1的估计 量,同理z1,i,k、z2,i,k是第k步时干扰观测器对xi,k和di,k的估计量;ααα α1、2、3、4是干扰观测器的参数;e1,i,k是干扰观测器对智能体状态xi,k+1的观测误差, 定义为e1,i,k=z1,i,k-xi,k。[0056]定义干扰观测器对扰动di,k的观测误差为e2,i,k,然后可以得到误差方程:
[0057][0058]
[0055]
通过以下定义得到式(4)的简化形式(5)
7
CN 112230552 A
说 明 书
5/6页
[0059]
ei,k+1=Φei,k+Ψsign(e1,i,k) (5)
[0061](3)设计博弈策略
[0062]在多智能体博弈系统中,每个智能体都是一个自私的决策者,他们会尽 力优化自己的成本函数,而每个智能体的成本函数之间又存在着耦合关系。 因此需要设计博弈策略对智能体自身的成本函数进行优化使系统达到纳什均 衡。
[0063]
[0060]
纳什均衡:如果x*能使系统中每一个智能体的成本函数都满足 本发明采用梯度博弈策略
其中ug代表控制器中的 博弈
则称x*是系统的一个纳什均衡点。
[0064]
策略项
基于本发明对于多智能体博弈系统的假设,该系统有且只有唯一的纳什 均衡点。采用梯度博弈可以使系统达到纳什均衡。[0066](4)设计多智能体博弈系统的抗干扰控制器[0067]抗干扰控制器的设计主要考虑实现两个功能:第一是优化每个智能体自 身的成本函数。这是因为在多智能体博弈中,每个智能体都具有自私性,也 就是首先要优化自身的性能;第二是对于存在的未知匹配扰动进行估计并消 除扰动。[0068]基于前边设计的干扰观测器和梯度博弈策略,第i个智能体的控制律设 计如下:
[0069][0070][0065]
其中第一项是按照智能体成本函数的梯度方向对智能体的性能 进行优
化,第二项是将干扰观测器对扰动di,k+1的估计量z2,i,k引入控制中对扰 动进行抑制消除。[0071](5)确定抗干扰控制器中参数的约束
[0072]结合之前设计的干扰观测器式(3)和控制律式(6)建立多智能体博弈 系统的状态方程:
[0073]
[0074]
将闭环系统的状态方程转化为紧凑形式
[0075]
[0076]其中,
8
CN 112230552 A
说 明 书
6/6页
[0077]
然后利用李雅普诺夫定理对系统收敛性进行分析可以得到抗干扰控制器 中参数
需要满足以下 两个约束。
要满足的约束。在本发明中对于参数矩阵
[0078][0079]
第一:对于步长μ,要满足
第二:对于给定的矩阵Γ=ΓT>0,参数矩阵Φ能够使得下列线性矩阵不 等式
(LMI)有正定的解H=HT>0。
[0080]
其中σ和δ是两个正常数,I是单位矩阵,γ满足0<γ<1。
[0082]本发明未详细说明部分属于领域技术人员公知常识。[0083]实施例
[0084]为了验证该理论的正确性和有效性,本发明考虑了多智能体通信任务中 网络层发生的攻防博弈。其中智能体1-6是正常的智能体,智能体7、8为 敌方智能体。敌方智能体会尽可能降低普通智能体的通信能力,普通智能体 会尽可能提高自己的通信能力。并且每个智能体还会受到未知的扰动影响, 扰动的表达式如下:
[0085][0086]
[0081]
di,0=[0.2 0.1 -0.2 0.5 0.3 0.2 -0.1 1.2]T
其中i表示智能体的编号,k代表步数,μ代表步
长,di,0是扰动的初值,表示正弦函数的初始相位。
从结果图2中可以看出,每个智能体都可以抵消未知扰动的影响,并且 在博弈策略下,最终多智能体系统达到了纳什均衡状态。
[0088]本发明针对受到未知扰动的离散多智能体博弈系统,充分考虑可能出现 的匹配扰动,基于干扰观测器设计抗干扰博弈控制策略,实现多智能体的纳 什均衡寻求,使系统达到唯一的纳什均衡状态。可能产生匹配扰动的原因包 括但不限于控制通道中的信号噪声、执行器故障、多智能体的成本函数不准 确、系统模型误差等。[0089]本发明首先构建智能体的博弈模型,其次针对系统中智能体受到的未知 扰动,设计离散扰动观测器,对未知扰动进行估计;然后对多智能体系统设 计博弈策略,对智能体的成本函数进行优化使系统达到唯一的纳什均衡状态; 之后结合扰动观测器和梯度博弈策略设计抗干扰控制器;最后通过对系统的 稳定性分析确定抗干扰控制器中参数的约束;本方法将博弈论和干扰观测器 应用在多智能体系统中,能够在消除未知扰动影响的同时优化智能体的成本 函数,使系统达到纳什均衡;本发明结合实际工程中会出现的扰动,抗扰动 能力强,适用于工程应用。
[0087]
9
CN 112230552 A
说 明 书 附 图
1/1页
图1
图2
10
因篇幅问题不能全部显示,请点此查看更多更全内容