www.4778.com

 www.4778.com


中战pH值的控 造至关主要
发布日期:2019-11-01

  请盲目恪守互联网相关的政策律例,严禁发布、、的言论。用户名:验证码:匿名?颁发评论

  1.本坐不应用户上传的文档完整性,不预览、不比对内容而间接下载发生的问题本坐不予受理。

  基于数据的ADP离线值迭代算法和正在线Q进修算法研究 摘要 自顺应动态规划方式是求解非线性系统最优节制的一种无效节制方 法。正在被控对象的内部动态特征已知的环境下,自顺应动态规划的值迭代 算法和策略迭代算法都能够用于求解最优节制。将基于数据的节制理论方 法和自顺应动态规划方式相连系,研究基于数据的白顺应动态规划方式, 能够正在被控对象内部动态特征未知的环境下求解非线性最优节制问题。基 于数据离线自顺应动态规划方式,是通过采集系统的离线数据,而且正在系 统建模的根本上实现对系统的优化节制;一般环境下,离线数据相对正在线 数据可以或许愈加全面地反映出系统运转的内部动态特征,基于数据离线自适 应动态规划算法能够获得相对全局的优化节制解;可是,离线数据的更新 时间相对正在线数据更新时间要长,基于数据离线白顺应动态规划算法运转 速度相对较慢,而且正在系统不确定性和建模误差存正在的环境下,其算法的 白顺应能力也相对较差。基于数据正在线自顺应动态规划方式,间接操纵系 统运转的正在线数据来实现对系统的优化节制;虽然,正在线数据的更新相对 离线数据要快,算法的运转速度较快,自顺应能力较强,可以或许达到及时控 制的要求,可是正在线数据相对离线数据的局部性使得算法容易陷入局部最 优。 针对上述存正在的问题,连系自顺应动态规划离正在线实现的优错误谬误,本 文提出一种先离线后正在线的自顺应优化节制方式,即:正在被控对象未知的 环境下,采用基于数据白顺应动态规划离线值迭代算法起首对系统进行离 线优化节制,再利用正在线Q进修策略迭代算法对离线优化节制进行正在线改 善。这种先离线后正在线的基于数据的自顺应优化节制方式,能够充实操纵 基于数据离线白顺应动态规划方式和正在线白顺应动态规划方式的长处。 甘蔗制糖出产过程,是一个复杂的物理化学过程,具有非线性强、 畅后大、不确定性强、输入多等特点。保守的基于机理模子的节制理论方 法,正在对甘蔗制糖出产过程的pH值节制中,因为难于成立系统精确的 数学模子而使得其节制结果很不抱负。通过采集糖厂工段系统的数据 成立糖厂工段系统的模子,本文将提出的方式用于甘蔗制糖出产 过程中的中和pH值的优化节制,取得了较好的节制结果,验证了本文所提 出算法的无效性。 环节词:自顺应动态规划,正在线锻炼,离线锻炼,策略迭代,值迭代,pH 值优化节制 VALUE ADPOFFLINE OFDATA.BASED THESTUDY ANDONLINE ALGORITHM ITERATION Q ALGoIUTHM ABSTRACT in aneffective way solving Programming(ADP)is AdaptiveDynamic nonline control theinternal systemoptimal problem.As dynamic is and ofthecontrolled known,value policy system canbebothusedtosolvethe control iteration(PI)algorithm optimal control and theData-based Dynamic problem.Combining theoryAdaptive Data—based canbe AdaptiveDynamicProgramming,it Programming,study the nonline when usedtosolvethe contol ofthe system optimal problem is unknown.Data-based internal characteristic Adaptive system’S dynamic off-line solvethe controllaw Programmingalgorithm optimal through Dynamic the dataofthe andneedtobuild the ofhistorical system system’S acquisition off-linedatacanmore reflecttheinternal model.Although,the comprehensively ofthe andData—based dynamics system AdaptiveDynamic off-line canobtain control globaloptimal algorithm relatively is thantheon-·linedataand timeoftheoff-linedatalonger update off-line runs it over,as slowly,more AdaptiveDynamicProgrammingalgorithm ofthemodelandthe of needtobuildthe error uncertainty model,the system’S the oftenmakesthe of system adaptivecapbalityalgorithm on--line usetheon。-linedatatoget algorithm AdaptiveDynamicProgramming the control runs andthe of optimal law,although,itstly adaptivecapbality is is tollintolocal superor,iteasy optimum. algorithm Inviewoftheabove tothe and advantages problems,according theone.1ineandtheoff-line of mainly dynamicprogramming,the adaptive studiedthe data—basedADPand anew control proposedadaptive optimal off-line dataestablishthe neuralnetworkmodel method:using ofthe system off-line fistly,then valueiteration ofADPan using algorithm get controllaw on—line iterationof secondly,at last,using policy Qlearningimprove the controllaw.thiscan optimized makefullu搜索引擎优化fthe ofthe advantages Data—based off-line and AdaptiveDynamic the Programming algorithm Data—based on—line AdaptiveDynamic Programmingalgorithm. Cane is a industrial sugar hasmuch production complex process,it characteristics including nonlinear、multipleinput、dynamiccontinuity、 andSOon.Whenthe traditionalcontrol which uncertainty theory iSbasedonthe mathematicalmodel of isusedtocontrolthe valueofcane system pH sugar manucture control effectisnot tothe process,the ideal,due the in difficulty accuratemathematical model.Inthis builtthe establishing ,we sistem’S neuralnetworkmodel the datacollectedfrom sitein usingsample sugar ctory realtimeand thenusedthe tocontrolneutralizationof proposedalgorithm pH the andachievedabettercontrol verifed clarify the of process result,it validity the methodinthis proposed . KEY WORDS:AdaptiveDynamic Programming,On—line traning,PolicyIteration,Value value Iteration,pHoptimize contr01. IV 广西大学凋爵士掌位论文 基于数据的ADP离线值迭代算法和正在线Q进修算法研究 第一章 绪论 10l课题布景及意义 近年来,为顺应突飞大进的科学手艺成长及其日益激烈的市场所作,我国工业出产 对产物的质量、企业的出产效率、成本的耗损等提出了新的更高的要求…;取此同时我 国大部门工业企业的出产也面对着大规模的变化,从简单地逃求高速化、持续化比及致 力于逃求产质量量的提高、成本的优化等。因为工业出产方针的提高及其出产体例的变 更,我国工业节制系统的变化也越来越较着,次要表示正在以下几个方面:工业出产集中, 工业节制系统的规模越来越大;工业出产流程多样,工业节制系统的非线性程度越来越 高;正在对产质量量提出更高要求的前提下,不得不正在出产过程中对工业节制系统的时畅、 不确定性及其多变量等加以考虑,如许使得工业节制系统变得愈加复杂。 保守的节制理论方式包罗典范节制理论和现代节制理论方式,其对工业现场现实系 统的节制次要包罗对被控系统的机理建模和基于机理模子设想节制器;虽然,这种设想 方案对简单的节制系统的设想具有较好的结果;可是,对于规模大、非线性程度高、不 确定性强、时畅多的节制系统,往往因为难以成立系统精确机理模子而使得保守节制理 论方式显的为力乜1:即便可以或许成立其切确的机理模子,也是正在必然的假设前提下完 成的,而这些假设前提降低了现实出产过程中系统的复杂性b1,难于准确反映现实系统 的内部机理特征,如许使得设想的节制器精度不高,靠得住程度低,节制结果较差,难以 达到高尺度的出产要求。 从的阐述中能够看出,利用保守的基于数学模子的节制理论方式来设想当前工 业节制系统曾经相当坚苦,而且难以达到科技前进、日趋激烈的市场所作环境下对工业 出产的新要求。虽然,提出了一系列节制理论方式来处理模子不切确带来的节制器靠得住 性较低的问题,如鲁棒节制H1,可是因为其节制器的精确利用范畴很难确定,因而难以 将其推广使用到现实系统中。总而言之,利用保守节制理论方式设想当前工业节制系统 时无法避免一对孪生问题,即“未建模动态问题”和“鲁棒性问题”;这对孪生问题使 得保守节制理论方式正在面临复杂工业节制系统时,不成避免地构成了一个“怪圈”即正在 没有对系统进行机理建模的环境下,保守节制理论方式无法对节制系统进行设想,正在建 模的环境下又将面对“未建模动态问题”和“鲁棒性问题畸1。 因而,面临我国工业节制系统的严沉变化,若何正在难以成立系统的机理模子的情 况下设想节制器,从而提高我国工业产物的质量,并最终提拔我国工业的市场所作力已 经成为一个急待处理的问题阳1。系统运转的汗青数据包罗系统的正在线数据和离线数据, 正在我国工业出产过程中,部门企业曾经可以或许对现场出产的数据进行大规模采集并存储, 而且被控系统的内部机理特征、不确定性、多变量特征等均包含正在这些数据傍边,若何 广西大学硕士学位论文 基于数据的ADP离线值迭代算法和正在线Q进修算法研究 充实操纵这些数据以实现对工业节制系统的设想、优化,具有很是主要的意义。 为了降服保守节制理论正在面对复杂工业节制系统设想时的不脚之处,必需采用新 的节制理论方式。基于数据的节制(Data—basedconr01)发源于计较机科学范畴,基 于数据节制被定义为“只操纵受控系统的汗青数据(包罗正在线和离线数据)以及颠末数 据处置(如系统辨识)后获得系统的相关内部特征来设想节制器节制理论取方式陷¨’基 于数据的节制相对保守的节制理论方式的长处次要表示正在:基于数据节制理论方式不需 要成立系统的机理模子,间接从系统的汗青数据中设想节制器,它能处理利用保守节制 理论方式设想复杂工业节制系统时碰到的难题。 制糖业是我国工业的主要构成部门,广西是我国的次要产糖区,同时制糖业也是 广西地域的次要经济支柱之一口’81。甘蔗制糖过程节制系统,是一个复杂的工业控 制系统,它包含着非线性强、节制系统规模大、不确定性强等特点,这些都导致其切确 的数学模子很难成立。当前,我国广西地域大部门糖厂对糖厂过程pH值的现场控 制是通过出产工人经验来手动完成的,其节制结果很不抱负,并最终影响成品糖的质量。 本色上,我国制糖业很难产出国际尺度的糖,大部门产出的是国际B级糖(耕地白 糖),可以或许出产出国际尺度的糖,对加强我国制糖业正在国际制糖业中合作实力有着 至关主要的感化。 自顺应动态规划方式(ADP),因为其正在非线性系统优化节制方面的强大劣势而被 普遍研究。自顺应动态规划方式以保守的动态规划方式为根本田1,它采用函数近似器如 (神经收集)来迫近机能目标函数,操纵迫近的机能目标来优化节制律,并最终实现对 节制系统的优化。将基于数据的节制理论方式和自顺应动态规划方式相连系,研究基于 数据的自顺应动态规划方式,努力于处理非线性系统最优节制问题而且以广西制糖业实 际节制系统为实例,将基于数据的自顺应方式用于糖厂过程的pH值优化节制,提 高节制过程pH值的节制精度,进一步提高产糖质量,为我国制糖业能出产出国际A 级白糖供给一种新的节制理论方式有着很是主要的意义。 1.2基于数据节制方式及其理论研究现状 基于数据节制理论方式的研究虽然还处于初始阶段,但却取得了必然;国表里 提出的基于数据节制理论方式大致可分为下面三类:基于离线数据节制方式和理论;基 于正在线数据的节制方式和理论;基于正在线和离线数据相连系节制方式和理论哺3。 contr01),后来,这种 1978年,Uchiyama提出迭代进修节制方式(Iteraviveleaning 节制方式成为节制界研究的热点范畴,它是一种基于正在线和离线数据相连系节制理论方 法‘1¨¨。 (Simultaneousstochastic 2,它是一种 perturbationapproximation)算法来迫近节制的方式n 基于数据的ADP离线值迭代算法和正在线Q进修算法研究 基于正在线数据的节制理论方式。 free 1994年,候忠生提出无模子自顺应节制(Model control,MFAC)u3,这 adaptive 种方式只操纵被控对象的正在线数据就能够实现无模子自顺应节制,其实现的根基道理是 通过对离散时间非线性系统正在当前工做点进行线性化,并通过正在线数据对线性化模子的 伪偏导数进行估量,并以此来设想节制器n引,它也是一种基于正在线数据的节制理论方式。 系统采集的正在线数据来估量机能目标,并以此从备选的节制器当选择满脚要求的节制器 5。 来做为现实系统的节制器,这种方式现实上是一种切换节制方式n 时,基于系统数据对PID参数进行调理的方式,使得保守的PID节制可以或许正在系统模子未知 时对系统进行节制n61,它属于一种基于离线数据的节制理论方式。 feeback 1994年,Hialmarsson提出迭代反馈整定方式(Iterative 环系统的数据寻找最优节制器参数,它也是一种基于离线数据的节制理论方式。 种基于离线数据的节制理论方式。 基于数据节制理论方式除了的几种方式外还有懒惰进修节制方式(Lazy 9。,自顺应动态规划(ADP)算法乜伽及其数据驱动仿实节制乜¨,此中自顺应 Learning)n 似器(如神经收集)来估量节制机能目标从而达到优化的目标;数据驱动仿线基于数据的自顺应动态规划的研究现状 1.3.1自顺应动态规划的成长 动态规划(DP),是一种求解无限时间域最优节制的无效方式,正在多阶段决策中, 动态规划根基思惟是将多阶段决筹谋分为若干子阶段决策问题,并采用由后向前的的时 间挨次,对各个子阶段顺次求解最优节制,并最终获得整个过程的最优节制。然而,动 态规划求解最优节制问题容易发生维数灾问题乜2J,因而,难以将其推广使用到现实系统 中。Werbos于1977岁首年月次提出的自顺应动态规划(ADP)的方式n4,采用函数近似器 来迫近机能目标函数,并以此来来近似求解最优节制,能够避免保守的动态规划方式的 维数灾问题。正在文献n43中,Werbos用神经收集来迫近机能目标函数和优化节制律函数, 并别离将其称为评价收集和施行收集,别的,他还用一个模子收集来取代被控对象,取 得了较好的节制结果。 广西大学硕士学位论文 基于数据的ADP离线值迭代算法和正在线Q进修算法研究 按实现布局划分,白顺应动态规划能够分为式动态规划(HDP)、双式动 态规划(DHP)、全局双式动态规划(HP)乜3’24、施行依赖式动态规划 划和施行依赖双式动态规划因为其实现布局不需要模子收集,而且可以或许正在被控对象 未知的环境下正在线求解最优节制,因而,也被称为Q进修。 ADP方式的根基道理,是正在函数近似(如利用BP神经收集来迫近)根本上近似求 解最优节制,其算法节制结果的黑白正在很大程度上依赖于函数近似器的迫近精度。2002 年,Murray研究了持续时间非线性系统最优节制问题,提出持续时问非线性系统的迭代 依赖式动态规划并对其进行了改良,正在倒立摆节制系统取得了较好的节制结果艟引。 性系统的最优节制值函数迭代算法,采用两个迭代方程来求解HJB方程,而且正在必然条 件下给出了其性性证明,这两个迭代式正在无限步迭代后,可以或许到切确的最优控 制解瞳8’别;其根基迭代方程如下: (卜1) “。(七)=argmin{U(x(k),扰(后))+。Z(x(尼+1))) …L, (卜2) 以+。(x(尼))=mip{U(x(k),“(露))+以(x(尼+1))) “… 学博士魏庆来针对一类形态和节制变量都含有时畅的非线性系统,正在二次型机能目标函 数的根本上,通过引入时畅函数矩阵,提出了操纵一种新的自顺应动态规划迭代算法,这 种迭代算法,可以或许求解非线性时畅系统无限域价格的最优节制问题;他还给出了这种迭 代算法的性证明,指出了其正在必然的假设前提下可以或许到切确的最优节制解日0’311。 1.3.2基于数据自顺应动态规划的成长 目前,虽然基于数据的自顺应动态规划方式研究还正在初始阶段,但也取得了必然的 reinforcement 成绩。2001年,JennieSi提出一种正在线强化进修 (On—line ∽2。该方式能够正在不晓得系统内部机理特征的环境下,按照系统正在线数据采用神经收集 来迫近机能目标函数,从而优化节制律,并最终实现对非线性系统的正在线 年,Lee等提出利用离线和正在线数据,采用局部加权平均函数迫近的方式估量Q函数, 并以此来获得优化节制律函数,最终达到对非线性系统的优化节制;这种方式不需要建 立被控对象的模子,间接操纵正在线数据来设想优化节制器。。。341。2007年,DarnelProkhorov, 提出一种ADP框架下离线和正在线锻炼相连系方案。先操纵鲁棒性锻炼方式将节制器锻炼 广西大学硕士学位论文 基于数据的ADP离线值迭代算法和正在线Q进修算法研究 到最优。然后通过评价器的帮帮或者模仿强化进修的方式对节制器进行正在线l。 思惟。文章还引见了线性二次型问题Q进修方式,这种方式能够正在完全不晓得系统的动 态环境下求解最优节制口61;后来,他又提出一种基于输入输出数据的自顺应动态规划控 制方式,其次要思是操纵正在线数据,通过正在系统输入输出数据来辨识价格函数,利用 值迭代算法和策略迭代算法来求解最优节制而且正在求解最优节制的过程中,不需要晓得 系统的内部动态特征,可以或许获得切确的最优节制解,可是该方式仅限用于线本文的次要工做 正在被控对象未知的环境下,基于数据的自顺应动态规划方式,操纵离正在线数据, 利用函数近似器来迫近机能目标函数,从而求解被控对象最优节制。基于数据离线自适 应动态规划方式,是通过采集系统的离线数据,而且正在系统建模的根本上实现对系统的 优化节制;一般环境下,离线数据相对正在线数据可以或许愈加全面地反映出系统运转的内部 动态特征口9’引,基于数据离线自顺应动态规划算法能够获得相对全局的优化节制解;但 是,离线数据的更新时间相对正在线,基于数据离线自顺应动态规 划算法运转速度相对较慢,而且正在系统不确定性和建模误差存正在的环境下,其算法的自 顺应能力也相对较差。基于数据正在线自顺应动态规划方式,间接操纵系统运转的正在线数 据来实现对系统的优化节制;虽然,正在线数据的更新相对离线数据要快,算法的运转速 度较快,自顺应能力较强,可以或许达到及时节制的要求,可是正在线数据相对离线数据的局 部性使得算法容易陷入局部最优眵9’5。 甘蔗制糖出产是一个复杂工业过程,正在甘蔗糖厂工段系统中,中和pH值的控 制至关主要,间接影响成品糖的质量。为了验证本文所提出的算法的无效性及其为甘蔗 制糖出产提高成品糖的质量寻求的新的节制理论方式,针对该糖厂工段系统系统的 非线性、多输入、动态持续性、不确定性等特点,正在现场采集糖厂过程及时样本数 据的根本上,颠末必然的数据处置,成立糖厂工段系统神经收集模子,而且将本文 提出的算法用于工段的中和PH值优化节制,仿实成果具有较好的节制结果。 广西大学硕士学位论文 基于数据ADP离线值迭代算法和正在线Q进修算法研究 第二章离散非线性系统自顺应动态规划节制方式 2.1本章引言 白顺应动态规划方式,以保守的动态规划方式和强化进修方式为理论根本,是一种 求解非线性最优节制的无效方式。凡是,白顺应动态规划方式求解最优节制包罗策略迭 代和值迭代算法盼引;策略迭代是一类两步迭代算法,它包罗策略评估和策略改良,策略 迭代算法从初始不变的节制策略价格评估中起头进行策略寻优,和当前策略相对应的代 价函数被用于获得一个新的改良的节制策略,这个策略具有更优的价格函数;策略评估 和策略改良反复进行,最终到最优控策略。需要留意的是正在策略评估中,给定策略 的无限域价格的评估只能正在一个可控策略下进行,这意味着,初始节制策略必需是不变 的。值迭代算法,针对HJB方程,用迭代方程式求解最优价格函数和最优节制,这种算 法不需要初始不变的节制策略。一般环境下,策略迭代算法和值迭代算法都要求晓得被 控对象的内部动态特征;Q进修算法,通过进修形态动做对值函数来求解最优节制策略, 即便正在系统未知的环境下,它也能正在线离散非线性系统最优节制问题 考虑如下离散时间仿射非线=f(xk)+g(瓦)‰(2~1) Q∈R”上不变。期望找到U(Xk)使得价格函数最小,价格函数通过以下式子给出: 00 Ru“) (2-2) 矿(%)=∑y’(%+,7魄+,+‰+,7 此中U(xk,‰)=xk ssible controls)H1. 方程(2—2)是有界的,如许才能使得“,为容许节制(admi 定义:容许节制:若是u(x)正在Q上持续, 方程(2—2)可写为: (2—3) 矿(%)=x:1魄栅[Ruk+础+,崩F@i+t/№) =X。J’缈女十“:Ru☆+yV(x¨) 6 广西大学硕士学位论文 基于数据ADP离线)式称为贝尔曼方程(Bellmanequation). 按照贝尔曼最优性道理。Hami (2—4) V+(毪)=min(xrQxk+urRuk+yV+(%+】)) ‰ 最优节制zf’为: (2—5) 砧+(七)=argmin(xrQxk+甜;灭甜t+yV+(吒+1)) % 优节制的求解。正在线性时不变系统中,HJB方程求解等价于求解黎卡迪方程,可是需要 晓得系统的内部动态特征。 2.3自顺应动态规划值迭代算法 代式来求解: 设初始形态值函数%(%)=O: I K+1(%)=IIlin(《鱿+《R%+y杉(&+】)) “ { , (2-6) I甜f(稚)=argmin(x]Qxk+“:Ru々+y形(磁+1)) 』姒班一扣刚掣 ∽7, 【¨+l(‰)=≮T魄+zf?(xk)Ru,(坼)+厂杉(坼+1) 值迭代算法求解最优节制过程中至多需要晓得被控对象的部门内部动态特征 g(xk),而且正在每一步迭代过程中,形态值函数城市接近最优价格函数,迭代步数为无 穷大时其形态值函数就是最优价格函数,对应的节制策略为最优节制策略。 自顺应动态规划值迭代算法如下: 初始化: 这个策略不必然要求为容许节制策略。 给定肆意节制策略‰(尼)=办(K), 形态值更新: 操纵(2-8)式求解新的形态值函数: ¨+。(吒)=U(坼,1,li(后))+7¨(坼+。) (2-8) 广西大掌硕士学位论文 基于数据ADP离线值迭代算法和正在线Q进修算法研究 策略更新步: 操纵(2-9)式求解新的节制策略: (2—9) 甜Ⅲ(x0=argm‰in(≮T魄+甜吾R%+厂¨+l(吨+1)) 2.4自顺应动态规划策略迭代算法 设正在给定策略Uk=办(%)下的价格函数: %(毪)=∑厂7(雉+lT魄+。+‰+,rR‰+j) (2—10) i=0 则贝尔曼方程(2—3)式写为: 圪(x々)=_x。T。X☆+扰々TR“々+厂%(磁+1) (2—11) 策略迭代算法通过策略评估来改良新的策略,其新的策略都等于或者优于上一步策 略。策略评估就是求解当前策略下的价格函数圪(%),按照贝尔曼方程(2—3)式,当 前策略函数圪(%)满脚(2-8)式,因而策略评估步中,能够通过当前策略下系统运转 的形态轨迹来求解价格函数。 策略更新步通过求解最优节制动做来完成;正在策略改前进中,通过最小化下面的式 子来寻找最优节制动做: (2—12) u(xk)=argmin(x/Qxk+urRu尼+/圪(讫+1)) Uk 若是当前的动做可以或许使得其估量的价格最小,则申明当前动做的策略比‰=h(x。)要好。 自顺应动态规划的策略迭代算法如下: 初始化:给定初始容许节制甜。(后)=h(xk); 策略评估: 操纵(2—11)式求解V,(xk)对肆意的k满脚: 杉(K)=U(xk,甜f(魂))+rVi(x七十1) (2—13) 策略改良: (2—14) Ui+I(xk)=argmin(x:Q戈七十扰:Ru.i}+/杉(x七十1)) uk 策略改前进中,下一步的节制策略甜川(‰)的求解是通过(2—11)式左边对%求导并 令其为0获得的,这和值迭代算法的策略更新是一样的,也要求晓得被控对象的内部动 广西大学硕士掌位论文 基于数据hOP离线值迭代算法和正在线Q掌习算法研究 态特征。 正在策略评估步调中杉(碓)的求取能够通过如下的迭代式m1: 令¨o(稚)=0,则: K,“(h)=7¨,(讫+1)+U(x七,甜f(黾))(2—15) 当迭代步J为无限大时¨。(%)=形(%). 2.5自顺应动态规划策略迭代算法和值迭代算法区别 值迭代和策略迭代算法都能求解最优节制律,而且都要求晓得被控对象部门内部动 态特征如g(xk);值迭代算法次要是针对HJB方程来求解最优节制;因而正在形态值函数收 敛之前,其当前步策略并不必然是不变的节制策略,对应的形态值函数并不是当前节制 策略的价格函数b7,驯。策略迭代算法,其次要道理能够归纳综合为策略搜刮,正在当前策略的 根本上寻找更好的策略做为下一步更新的策略,以此来获得最优节制策略,但要求初始 节制策略为容许节制策略;自顺应动态规划策略迭代算法正在初始不变的节制策略下,当 前步的形态函数为当前策略的价格函数。正在算法实现过程,初始策略的拔取很主要,它 间接关系到算法性和算法的运转速度,算法的坚苦正在于找到一个初始不变的容许控 制策略。 2.6Q进修 凡是环境下,白顺应动态规划值迭代算法和策略迭代算法都要求晓得被控对象的内 部动态特征,正在对象未知的环境下,其最优节制的求解是通过对系统建模来完成的(如 利用神经收集成立系统的模子)。Q进修可以或许正在对象未知的环境下求解最优节制,而且不 需要成立系统的模子。 针对最优节制问题,设正在给定的策略u(k)=h(xk)下定义Q值函数: Q(K,‰)=U(t,‰)+圪(砟+1) (2—16) 最优Q函数Q+(%,明升网址“)定义为: Q+(吒,‰)=U(t,‰)+y’(xk+1) (2—17) 因而,HJB方程(2—4)式能够写为: y+(xk,1,/々)=min(Q+(xk,‰)) (2—18) “t 留意到Q为Xk矛HUk的函数I,则贝尔曼方程(2—3)式正在Q形式下写为: 广西大学硕士掌位论文 基于数据ADP离线) Q(扳,办(魄))=U(t,办(%))+Q(%+l,办(吒+。)) 最优节制满脚: 只需得出最优Q函数Q+(毪,“),令掣:o就能够求出最优节制。 d” 2.7Q进修策略迭代算法 Q进修算法连系策略迭代算法,可以或许正在不晓得对象内部动态特征下,正在线求解最优控 制,其算法的根基道理如下: 给定初始容许节制Uo(尼)=庇(%); 策略评估: 操纵(2—11)式求解Q,(xk,1,1。)对肆意的k满脚: (2—21) Qf(魂,扰,(‰))=U(x。,%(以))+Ql(磁巾%(%+,)) 策略改良: Ui+I(克)=argmin(Qixk,‰)) (2—22) “ 从策略‰(尼)起头,其每一步更新的策略都比上一步的策略更好,价格函数为动做 形态值函数,正在策略评估步中,丈量被控对象的形态动做值来估量Q函数;它可以或许正在线 实现,而且能够正在不晓得对象的内部动态特征下求解最优节制。 2.8离线值迭代算法和正在线Q进修策略迭代算法相连系 按照值迭代算法和策略迭代算法特点,提出一种离正在线相连系白顺应动态规划节制 方式:正在被控对象已知的环境下,起首采用离线值迭代算法对系统进行离线优化节制, 然后采用正在线Q进修策略迭代算法对离线优化后的节制律进行正在线改善;如许做的益处 如下:起首,采用值迭代算法来离线优化系统,如许能够避免策略迭代正在线优化节制时 寻找一个初始不变节制策略;其次,正在线优化不只利用策略迭代算法而且还连系Q进修 方式,具有很强的白顺应能力,如许即便正在系统不确定性存正在环境下,也能达到正在线优 化的目标。这种算法实现步调如下: (1)正在给定已知的被控系统环境下初始化价格函数环(xk)=0. (2)正在给定已知的被控系统采用白顺应动态规划值迭代算法进行离线优化节制,其结 果记为离线优化节制律Ho(尼) (3)将获得的离线优化节制律‰(尼)感化于已知被控系统。 10 广西大掌硕士学位论文 基于数据/IJ)P离线值迭代算‘法和正在线Q进修算法研究 行正在线优化节制。 仿实阐发 考虑离散时间仿射非线性系统的数学表达式如下: 讫+l=f(xk)+g(政)魄 喜£中xc尼,=[羔罱],甜c七,=『兰萎],厂c砟,=【.。0..2lx鼍12:(。k七),+一O。..0。55x%2(。k后),].J, l,机能目标函数定义为: g(xD:10.1+五(后)m3+艺(七)仉5+五(七’ =l I,。17土月医=r百怀豳裂疋义刀: 0.3+x22(后)o.1+毛2(后)0.3+_(七)屯(七)I c:?。];初始形态为: yc%,=。:。(xkT吸+uJRuk),其O?R=『叠三莩],Q=[%1 %村最优控Nu+为使得价格V(xo)最小。 起首采用离线值迭代算法对系统进行离线优化节制,离线值迭代算法的价格函数和 节制律函数都采m--层B辫申经收集来迫近,记离线优化后的节制律为Ho(尼);然后,将得 到的离线优化节制律感化被控对象,此时,假设因为不确定性或者四周的影响,系 进修策略迭代算法对系统进行优化节制,仿实成果如下: 广西大学硕士学位论文 基于数据ADP离线值迭代算法和正在线 80 100 120 迭代次数 图2-1离线值迭代价格V(xo)图 The ofOff-linevalueiteration index Fig.2—1 convergence performance V(xo) 5_2 Q值函数曲线 40 45 迭代次数 图2—2Q进修正在线策略迭代价格V(xo)图 The ofon。line iteration index Fig.2—2 convergenceQlearning policy performance V(xo) 12 广西大学硕士学位论文 基于数据AI)P离线 l ?、 I-f 4 』 迨…. 迥0 了 啦 耗 移 辍.0.1 n一…F… -0.2 y 旬.3 3 _——xl 2 …‘……边 1 墨。 j..、卜一,, × -_!fi,, !j 塾 -2 .3 从图2-1和图2—2能够看出,离线值迭代算法的优化节制和正在线Q进修策略迭代算 法的优化节制价格V(xo)均:离线优化节制后,将获得离线优化节制律感化于被控对 象,正在模子不确定性存正在环境下,Q进修策略迭代算法能对离线的表白仿实过程中节制和形态均到0,从而证了然本文所提出的 算法无效性。 基于数据ADP离线值迭代算法和正在线本章小结 正在这一章中次要引见了离散非线性系统最优节制的根基方式,包罗策略迭代算法和 值迭代算法,这两种算法都能够求解非线性系统无限域价格的最优节制问题,但都要求 至多晓得系统内部部门动态特征。别的,策略迭代算法的正在线实现需要初始不变的节制 策略,值迭代算不需要。本章还引见了Q进修方式,它将形态值函数为形态动 做对值函数,间接从形态动做对值函数中进修最优节制,不需要晓得系统的内部动态特 性,可以或许正在线求解最优节制。Q进修策略迭代算法连系Q进修算法和策略迭代算法的长处, 可以或许正在对象未知环境下,基于初始不变节制策略正在线求解最优节制,算法坚苦正在于找到 一个初始不变的节制策略。按照值迭代算法和策略迭代算法的特点,提出离线值迭代算 法和正在线Q进修策略迭代算法相连系的节制方式,这种方式可以或许充实操纵值迭代算法和 策略迭代算法长处,这一章中给出了一个简单的离散非线性系统仿实算例,证了然所提 出的算法的无效性。 广西大学硕士学位论文 基于数据ADP离线值迭代算法和正在线Q进修算法研究 第三章基于数据自顺应动态规划离线.本章引言 正在被控对象已知的环境下,白顺应动态规划方式都能够用于求解系统的最优节制; 值迭代算法可以或许正在肆意初始节制策略下对系统进行优化节制,策略迭代算法需要初始稳 定的节制策略。正在对象内部动态特征未知的环境下,自顺应动态规划方式求解最优节制 需要成立系统的模子;保守的成立对象数学模子求解最优节制,因为系统的复杂度较高, 难以模子精确度,使得求解的优化节制律不是最优的;别的,的模子不克不及对生 产现场中的动态不确定要素做出无效的预测,难以节制的及时性和无效性。基于数 据的自顺应优化节制,可以或许按照系统运转的汗青数据来求解最优节制,它可以或许很好地解 决上述问题。 本章次要针对被控对象未知环境下,引见基于数据的自顺应动态规划离线值迭代算 法,即起首操纵被控对象的离线数据,成立系统的神经收集模子,然后采用值迭代算法 对系统进行离线优化节制,最初将这种方式用于糖厂工段系统的中和pH值优化控 制。其顶用到的糖厂工段系统的数据来自于广西某糖厂现场。 3.2基于数据自顺应动态规划离线值迭代算法 基于数据值迭代算法,间接针对HJB方程来求解最优节制,正在对象未知的环境下, 需要成立系统的神经收集模子;正在每步的值迭代中,其更新的形态值函数愈加接近最优 形态值函数;因为其不需要初始不变的节制策略,因而,易于正在离线环境下实现,基于 数据离线值迭代算法步调如下: 步调1:对给定的非线性系统进行大量的离线数据采集并存储。 步调2:操纵采集的数据,正在精度占下成立系统的神经收集模子: 芰々+l=W。T盯(矿l(X々,甜t))(3-1) 此中嘭,嘭为神经收集的权值,仃为现层神经元函数。 步调3:初始化,令形态值函数圪(%)=O,迭代机能目标误差t=‰,最大迭代步数‘。 步调4:计较迭代节制律/,/‘o’(尼)暗示为: (3—2) “o(七)=argmin(x:’Qxk+u:Ru女+/Vo(x女+1)) ‰ 广西大学硕士学位论文 基于数据ADP离线值迭代算法和正在线:计较形态值函数K(讫). K(磁)=x;龟%☆+“女TR材女+rVo(x女+1) (3—3) 步调6:对迭代步f计较迭代节制律: (3—4) 甜,(后)=argrmn(xi”,QXk+urRu☆+y杉(磁+1)) ‰ 步调7:对迭代步f计较形态值函数杉+。(黾) (3—5) ¨+l(%)=X。T魄+u[Ru女+rV,(xk+1) 步调8:计较迭代机能目标误差s。=l¨(k)一K+,(%) 步调9:判断迭代误差,若是t≤毛则遏制,算法竣事。 步调10:判断迭代步数,若是i≤im。则转到步调6,不然遏制,算法竣事。 基于数据离线值迭代算法,虽然能够获得相对全局化的最优节制解,但其算法的控 制结果正在很大程度上依赖于模子的精确度;别的因为需要对系统进行大量的离线数据采 集,因而其算法的运转的速度较慢;而且正在现实系统中,因为不确定性,当被控对 象的内部动态特征发生变化时,因为模子不克不及及时地反映这些变化,而使得求解的优化 节制精度会进一步下降。 基于数据的离线值迭代算法的总流程如图3—1所示: 16 广西大学硕士学位论文 基于数据ADP离线基于数据自顺应动态规划离线值迭代算法流程图 TheflowchartofData-basedADPoff-linevalueiteration Fig.3—1 algorithm 17 广西大学硕士学位论文 基于数据ADP离线值迭代算法和正在线基于数据自顺应动态规划离线值迭代算法的神经收集实现 算法实现中,若是各个部门(包罗优化节制律函数、离线优化节制形态值函数、被 控对象的模子)都采用BP神经收集来迫近,则基于数据离线值迭代算法就是式动 态规划算法(HDP)[23】;其值迭代算法的神经收集权值调整如下: (1)模子收集: 正在采集的离线数据根本上,若是采用BP神经收集来成立系统模子,则其输入和输出 的关系如(3—6)式: l(x女,甜々)) (3—6) 叠t+1=W。T仃(y 模子收集的误差为: e。(k)=x女+1一戈≈+1 (3—7) 设其误差函数为: E。(k)=0.5e。(k)2 (3—8) 按照梯度下降法,模子收集的权值增量为: ㈣训一鬻, 净9, ㈣刮一鬻] 此中a。为模子收集的进修率。模子收集权值调整式为: 【V。(k+1)=V。(尼)+Av。(k) 留意:基于数据离线值迭代算法的模子收集成立是正在施行收集和评价收集权值调整 之前的,一旦模子收集成立后,除非被控对象离线数据更新,不然,正在当前的锻炼中, 离线值迭代算法将不再对模子收集进行锻炼。 (2)施行收集 假设备行收集也采用BP收集来实现,则其收集的输出玩和输入%的关系如(3—11) 式: 五,(尼)=吃’仃(瑶%) (3—11) 第f次迭代动做收集的期望输出通过(2.7)式给出: 广西大掌硕士掌位论文 基于数据hDP离线值迭代算法和正在线Q掌习算法研究 “,(磁):一丢R一179(xk)r掣 (3—12) z %+1 因而,第f次迭代动做收集的误差为: e。,(尼)=U。(k)一露i(k) (3-13) 其误差函数为: e (3-14) E。,(k)=0.52ai(k) 若是采用梯度下降法,则动做收集的权值增量为: 舭 毗 撕 毗 @一④蛾一1^ 删一嘲删一啪 此中%为动做收集的进修率,动做收集的权值调整式为: Av 做曷三篇篇害(3-16)]7ai【 (尼)=屹。(尼)+。。(尼) 对‰的偏导来估量。 (3)评价收集 设第f次迭代评价收集的输出和输入的关系如下: I;:(瓦)=嘭盯(瑶毪) (3.17) 第f+1次迭代值函数的方针函数为: (3.18) ¨+。(磁)=《Q‰+uT(x(k))Ru,(x(尼))+y或(‰¨) 因而,第i+1次迭代评价收集的误差为: (3.19) ec(i+1)(尼)=yf+l(%)一杉+1(.砘) 其误差函数为: E(f+1)(后)=o.5P‰)(尼) (3.20) 若是采用梯度下降法,评价收集的权值增量为: 19 广西大学硕士学位论文 基于数据ADP离线值迭代算法和正在线Q掌习算法研究 舭帆卜筹] (3—21) 蛾帅学】 评价收集的权值调整式为: I,%(,+1)(七)=vc。(七)+△V。;(尼){徽滋三鬻嚣嚣 ㈦22,、。‘。 留意:评价收集的权值调整是正在施行收集权值调整当前,其调整方针是按照(2—7) 式给出,评价收集的初始化一般是使得K(魄)为0. 正在权值增量矩阵求取过程中,误差对权值矩阵的求导一般采用链式,其求导后 的公式一般环境下按照收集布局(包罗现层个数,现层神经元个数,输入层神经元个数, 输出神经元个数)的分歧而变化。 别的,离线值迭代算法的神经收集实现就是式动态规划方式,可是和保守的启 发式动态规划有较着的区别,保守的式动态规划采用的是策略迭代算法,其收集的 权值调整是先调整评价收集,后调整施行收集;这里的值迭代算是先调整施行收集,后 调整评价收集。 因为本文中值迭代算法是离线实现的,因而,模子收集是零丁锻炼的,即起首锻炼 模子收集,然后锻炼施行收集和评价收集,而且模子收集锻炼好当前就不再锻炼,锻炼 模子收集的目标是为了辨识未知系统的内部动态特征。 3.4仿线糖厂工段系统及其基于数据的建模 甘蔗制糖过程是一个复杂的物理化学过程,其工段的中和pH值的不变对 提高产糖质量有着很是主要的感化【42J;通过对糖厂过程的中和pH值进行优化,从 而提高甘蔗制糖的产糖质量,最终改良广西制糖业的出产,有着很是主要意义。本节从 要将基于数据离线值迭代算法用于糖厂工段系统的中和pH值优化节制。 糖厂工段系统的工艺有亚硫酸法和碳酸法及其石灰法;目前,广西是我国次要 产糖,其大部门糖厂采用的是亚硫酸法出产工艺。工段系统的亚硫酸法出产工 艺次要有四个流程,这四个流程顺次是预灰、加热、中和反映、沉降H圳;夹杂汁颠末过 滤后第一次被加热,然后将其送入中和箱中,并同时插手石灰乳、二氧化硫气体等,使 第二次加热,加热后再将中和汁泵入沉降池通过沉降分手的感化获得清汁。留意,中和 反映后的pH值称为中和pH值,它对清汁和成品糖的质量有着主要的影响,这是由于: 20 广西大学硕士学位论文 基于数据ADP离线值迭代算法和正在线Q进修算法研究 亚硫酸法工艺的三个主要环节为:预灰、硫熏及其加灰,糖厂工段系统pH值的控 度、及其石灰乳的流量的调整,而这三个量所正在的三个环节均正在中和反映以前,中和反 应当前的环节包罗沉降和过滤等一般不添加节制环节H3,44’45,46“7,颠末沉降和过滤后的清 汁pH值次要是由中和pH值决定的;因而,中和pH值的优化节制对成品糖质量的提高 至关主要。 糖厂工段是一个复杂的物理化学过程,很难成立切确的数学模子。BP神经网 络是一种很好的非线性的迫近东西,它正在处置非线性方面具有强大的劣势,因而,本文 采用BP收集来成立系统模子。正在广西糖厂现场采集的2000组数据的根本上,通过恰当 的数据处置后,将其分成两部门,此中每部门的数据约为1000组,取此中的一部门成立 系统的神经收集模子l,而且将模子1做为基于数据离线值迭代算法中模子收集,建模 顶用到的部门数据如图表3.2所示;糖厂工段中,影响中和pH值不变的次要要素 有蔗汁流量、预灰pH值、硫熏强度、石灰乳流量;此中预灰pH值、硫熏强度、石灰乳 流量为节制变量,蔗汁流量按照工况不竭变化,正在采集数据的糖厂现场中为不成控变量 (未对其添加任何节制手段)。节制方针即中和pH值,正在糖厂现场中要求正在7.¨7.4, 具体设定值是按照每个时间段现实工况的变化来确定的。本文仿实中,将节制方针即中 和pH值的设定为7.1。需要留意的是,正在采集数据的糖厂现场,预灰阶段是分两线同时 进行的,因而,预灰pH值分为一线预灰pH值和二线预灰pH值,蔗汁流量分为一线蔗 汁流量和二线蔗汁流量,因为蔗汁流量不成控变量,因而正在本文中将两线蔗汁流量呈现 的输入值。糖厂工段pH值节制系统为6输入1输出系统,此中输入x1为一线蔗汁 为石灰乳流量,输出Y为中和PH值,正在系统的建模过程中满脚的关系式如下: (3—23) y(k+1)=厂[五(尼),xz(尼),U1(尼),U2(尼),H3(七),“。(尼)] BP神经收集的布局为三层前馈收集,此中输入层神经元个数为6个,现层的神经个 数为35个,输出层神经元个数为1个;模子l锻炼的样本数为800,剩下的数据做为模 型的泛化能力测试,正在matlab下仿实成果如下: 广西大学硕士学位论文 基于数据ADP离线值迭代算法和正在线Q进修算法研究 一线蔗汁 二线蔗汁 一线 二线 硫熏