当前位置: 首页>編程日記>正文

Reinforcement Learning An Introduction~The 10-armed Testbed

Reinforcement Learning An Introduction~The 10-armed Testbed

2.3 10臂测试台

       为了粗略的评估贪婪算法和ε-greedy 方法的相对有效性,我们通过一系列测试问题进行数值上的比较。这是一个2000次的随机产生的10个臂的赌博问题。对于每个赌博机问题,就像图2.1所示:

                                                                                                          图2.1

对于动作值函数 ,来自于一个均值为0方差为1的高斯分布函数。然后,当一种学习方法应用于该问题时,选择在时间步长t处的动作 ,从均值为 方差为1的正态分布中获得实际奖励值 , 我们可以画出随着1000局经验积累后不同方法的表现,这些分布在图2.1中用灰色表示。我们称这一套测试任务为10-臂测试平台。对于任何一种学习方法,将它应用于一个强盗问题,当其经验超过1000个时间步的时候,我们都可以测量它的性能和行为。这构成了一次运行。在2000次独立的测试中,每一次测试都有不同的强盗问题,我们通过学习算法的平均表现获得策略。

    图2.2比较了一种贪婪算法和2种ε-greedy 算法,如下所示:

                                                                                                  图2.2

        2种方法都采用均值采样技术实现行为值估计。上图展示了期望回报随着经验增加。刚开始的时候贪婪算法的提升效果略微好于其他方法,但是之后稳定在一个低水平。它每一步的收益仅仅是1,相比于最好的1.55。贪婪算法的长期表现很糟糕,因为他会陷入次优解。下面那张图展示了贪婪算法在大概三分之一的任务中找到了最优行为。其他三分之二任务里,在刚开始最优行为的选择上是令人失望的,最终也没能逆转。ε-greedy 算法最终表现更好因为它持续探索,提供了识别最优行为的可能。ε=0.1 的方法探索的概率大,因此通常会更早的找到最优值,但是仍有9%的概率没有找到最优动作。ε=0.01 方法改善的速度慢,但是最终表现效果比前面好。随着时间的推移,还可以逐渐减少ε ,以尽量同时获得高值和低值。

        ε-greedy 算法相较于贪婪算法的优势取决于任务,例如,假设奖励差异较大,比如说10而不是1。对于有噪声的奖励值,为了找到最佳动作需要更多的探索,并且ε-greedy 方法应该是有效的,并且相对于贪婪的方法甚至更好。另一方面,如果奖励的方差为0,那么贪心方法在尝试一次后会知道每个动作的真实值。在这种情况下,贪心方法实际上可能执行得最好,因为它会很快找到最优的行动,然后永远不需要探索。但即使在确定性的情况下如果我们弱化其他一些假设,那么探索就有很大的优势。例如,假设强盗任务是非平稳的,即

       行为会随着时间而改变。在这种情况下,甚至在确定性情况中也需要探索,确保其中一个非贪心行为没有改变,相比较贪心算法变得更好。正如我们将在接下来的几章中看到的,非平稳性是在强化学习中经常遇到的问题中是最常见的情况。即使基础任务是固定的和确定的,学习者也会面临一组强盗式的决策任务随着学习的进行和智能体决策策略的变化而变化。强化学习需要探索和开发之间的平衡。

       练习2.2:土匪示例,考虑一个k-armed土匪问题,k = 4个动作,表示1、2、3、4。考虑将强盗算法应用于此问题ε-greedy 行为选择,样本-平均行为价值估计,和初始估计 ,对于所有a。假设行为和奖励的初始序列为 , , , , 。在这些时间步骤中,ε可能已经发生,导致选择在随机的。这是在什么时候发生的?什么时候才能做到使这一点可能发生呢?

    练习2.3:在图2.2所示的比较中,从长期来看,在累积回报和选择最佳行动的概率方面哪种方法表现最好?这样会好多少?定量地表达你的答案。


https://www.fengoutiyan.com/post/14307.html

相关文章:

  • 鏡像模式如何設置在哪,圖片鏡像操作
  • 什么軟件可以把圖片鏡像翻轉,C#圖片處理 解決左右鏡像相反(旋轉圖片)
  • 手機照片鏡像翻轉,C#圖像鏡像
  • 視頻鏡像翻轉軟件,python圖片鏡像翻轉_python中鏡像實現方法
  • 什么軟件可以把圖片鏡像翻轉,利用PS實現圖片的鏡像處理
  • 照片鏡像翻轉app,java實現圖片鏡像翻轉
  • 什么軟件可以把圖片鏡像翻轉,python圖片鏡像翻轉_python圖像處理之鏡像實現方法
  • matlab下載,matlab如何鏡像處理圖片,matlab實現圖像鏡像
  • 圖片鏡像翻轉,MATLAB:鏡像圖片
  • 鏡像翻轉圖片的軟件,圖像處理:實現圖片鏡像(基于python)
  • canvas可畫,JavaScript - canvas - 鏡像圖片
  • 圖片鏡像翻轉,UGUI優化:使用鏡像圖片
  • Codeforces,CodeForces 1253C
  • MySQL下載安裝,Mysql ERROR: 1253 解決方法
  • 勝利大逃亡英雄逃亡方案,HDU - 1253 勝利大逃亡 BFS
  • 大一c語言期末考試試題及答案匯總,電大計算機C語言1253,1253《C語言程序設計》電大期末精彩試題及其問題詳解
  • lu求解線性方程組,P1253 [yLOI2018] 扶蘇的問題 (線段樹)
  • c語言程序設計基礎題庫,1253號C語言程序設計試題,2016年1月試卷號1253C語言程序設計A.pdf
  • 信奧賽一本通官網,【信奧賽一本通】1253:抓住那頭牛(詳細代碼)
  • c語言程序設計1253,1253c語言程序設計a(2010年1月)
  • 勝利大逃亡英雄逃亡方案,BFS——1253 勝利大逃亡
  • 直流電壓測量模塊,IM1253B交直流電能計量模塊(艾銳達光電)
  • c語言程序設計第三版課后答案,【渝粵題庫】國家開放大學2021春1253C語言程序設計答案
  • 18轉換為二進制,1253. 將數字轉換為16進制
  • light-emitting diode,LightOJ-1253 Misere Nim
  • masterroyale魔改版,1253 Dungeon Master
  • codeformer官網中文版,codeforces.1253 B
  • c語言程序設計考研真題及答案,2020C語言程序設計1253,1253計算機科學與技術專業C語言程序設計A科目2020年09月國家開 放大學(中央廣播電視大學)
  • c語言程序設計基礎題庫,1253本科2016c語言程序設計試題,1253電大《C語言程序設計A》試題和答案200901
  • 肇事逃逸車輛無法聯系到車主怎么辦,1253尋找肇事司機