热门关键词:亚博ag到账速度快的,亚博取现秒速出款,亚博取款速度非常快  
人工智能之TDLearning算法
2021-07-09 [13445]
本文摘要:人工智能机器学习有关算法内容,请求参看公众号“科技优化生活”之前涉及文章。

人工智能机器学习有关算法内容,请求参看公众号“科技优化生活”之前涉及文章。人工智能之机器学习主要有三大类:1)分类;2)重返;3)聚类。

今天我们重点探究一下TDLearning算法。^_^TDLearning时序差分自学融合了动态规划DP和蒙特卡洛MC(请求参看人工智能(31))方法,且兼备两种算法的优点,是增强自学的核心思想。虽然蒙特卡罗MC方法仅有在最后结果未知时才调整其估计值,但TDLearning时序差分自学调整预测以给定后,更加精确地预测最后结果之前的未来预测。

TDLearning算法概念:TDLearning(Temporal-DifferenceLearning)时序差分自学所指的是一类无模型的增强自学方法,它就是指当前价值函数估算的自举过程中自学的。这些方法从环境中采样,如蒙特卡洛方法,并基于当前估算继续执行改版,如动态规划方法。TDLearning算法本质:TDLearning(Temporal-DifferenceLearning)时序差分自学融合了动态规划和蒙特卡洛方法,是增强自学的核心思想。

时序差分很差解读。改回当时差分自学较为形象一些,回应通过当前的差分数据来自学。蒙特卡洛MC方法是仿真(或者经历)一段序列或情节,在序列或情节完结后,根据序列或情节上各个状态的价值,来估算状态价值。TDLearning时序差分自学是仿真(或者经历)一段序列或情节,每行动一步(或者几步),根据新的状态的价值,然后估算继续执行前的状态价值。

可以指出蒙特卡洛MC方法是仅次于步数的TDLearning时序差分自学。TDLearning算法叙述:如果可以计算出来出有策略价值(π状态价值vπ(s),或者行动价值qπ(s,a)),就可以优化策略。在蒙特卡洛方法中,计算出来策略的价值,必须已完成一个情节,通过情节的目标价值Gt来计算出来状态的价值。

其公式:MC公式:V(St)←V(St)+αδtδt=[Gt?V(St)]这里:δt–MC误差α–MC自学步长TDLearning公式:V(St)←V(St)+αδtδt=[Rt+1+γV(St+1)?V(St)]这里:δt–TDLearning误差α–TDLearning步长γ–TDLearning报酬贴现率TDLearning时间差分方法的目标为Rt+1+γV(St+1),若V(St+1)使用现实值,则TDLearning时间差分方法估算也是估计量估算,然而在试验中V(St+1)用的也是估计值,因此TDLearning时间差分方法归属于有稍估算。然而,跟蒙特卡罗MC方法比起,TDLearning时间差分方法要用到了一步随机状态和动作,因此TDLearning时间差分方法目标的随机性比蒙特卡罗MC方法中的Gt要小,因此其方差也比蒙特卡罗MC方法的方差小。

TDLearning分类:1)策略状态价值vπ的时序差分自学方法(单步多步)2)策略行动价值qπ的on-policy时序差分自学方法:Sarsa(单步多步)3)策略行动价值qπ的off-policy时序差分自学方法:Q-learning(单步),DoubleQ-learning(单步)4)策略行动价值qπ的off-policy时序差分自学方法(带上importancesampling):Sarsa(多步)5)策略行动价值qπ的off-policy时序差分自学方法(不带上importancesampling):TreeBackupAlgorithm(多步)6)策略行动价值qπ的off-policy时序差分自学方法:Q(σ)(多步)TDLearning算法流程:1)单步TDLearning时序差分自学方法:InitializeV(s)arbitrarily?s∈S+Repeat(foreachepisode):?InitializeS?Repeat(foreachstepofepisode):??A←actiongivenbyπforS??TakeactionA,observeR,S′??V(S)←V(S)+α[R+γV(S′)?V(S)]??S←S′?UntilSisterminal2)多步TDLearning时序差分自学方法:Input:thepolicyπtobeevaluatedInitializeV(s)arbitrarily?s∈SParameters:stepsizeα∈(0,1],apositiveintegernAllstoreandaccessoperations(forStandRt)cantaketheirindexmodnRepeat(foreachepisode):?InitializeandstoreS0≠terminal?T←∞?Fort=0,1,2,?:??Ift<Tt<T,then:???Takeanactionaccordingtoπ(˙|St)???ObserveandstorethenextrewardasRt+1andthenextstateasSt+1???IfSt+1isterminal,thenT←t+1??τ←t?n+1(τisthetimewhosestate'sestimateisbeingupdated)??Ifτ≥0τ≥0:???G←∑min(τ+n,T)i=τ+1γi?τ?1Ri???ifτ+n≤Tτ+n≤Tthen:G←G+γnV(Sτ+n)(G(n)τ)???V(Sτ)←V(Sτ)+α[G?V(Sτ)]?Untilτ=T?1留意:V(S0)是由V(S0),V(S1),…,V(Sn)计算出来扣除;V(S1)是由V(S1),V(S1),…,V(Sn+1)计算出来扣除。TDLearning理论基础:TDLearning理论基础如下:1)蒙特卡罗方法2)动态规划3)信号系统TDLearning算法优点:1)不必须环境的模型;2)可以使用在线的、几乎增量式的构建方式;3)不须要等到最后的现实结果;4)不局限于episodetask;5)可以用作倒数任务;6)可以确保发散到vπ,发散速度较慢。

亚博取现秒速出款

TDLearning算法缺点:1)对初始值较为脆弱;2)并非总是用函数迫近。TDLearning算法应用于:从应用于看作,TDLearning应用领域与应用于前景都是非常广阔的,目前主要应用于动态系统、机器人掌控及其他必须展开系统控制的领域。

结语:TDLearning是融合了动态规划DP和蒙特卡洛MC方法,并兼备两种算法的优点,是增强自学的中心。TDLearning不必须环境的动态模型,必要从经验经历中自学;也不必须等到最后的结果才改版模型,它可以基于其他估计值来改版估计值。输出数据可以性刺激模型并且使模型作出反应。

对系统不仅从监督自学的自学过程中获得,还从环境中的奖励或惩罚中获得。TDLearning算法早已被普遍应用于动态系统、机器人掌控及其他必须展开系统控制的领域。


本文关键词:亚博ag到账速度快的,亚博取现秒速出款,亚博取款速度非常快

本文来源:亚博ag到账速度快的-www.tcbss.com