首页 热点正文

usdt自动充提教程网(www.6allbet.com):设计简朴有用的强化学习探索算法,快手有新思路

约稿员 热点 2021-03-02 10:50:32 38 0

USDT第三方支付平台

菜宝钱包(caibao.it)是使用TRC-20协议的Usdt第三方支付平台,Usdt收款平台、Usdt自动充提平台、usdt跑分平台。免费提供入金通道、Usdt钱包支付接口、Usdt自动充值接口、Usdt无需实名寄售回收。菜宝Usdt钱包一键生成Usdt钱包、一键调用API接口、一键无实名出售Usdt。

原题目:设计简朴有用的强化学习探索算法,快手有新思绪

机械之心专栏

机械之心编辑部

在本篇论文中,来自德州农工大学和快手的研究者提出了一种简朴有用的探索算法,旨在为随机环境的探索问题提供有用的解决方案。

论文:https://openreview.net/forum?id=MtEE0CktZht

代码:https://github.com/daochenzha/rapid

探索是强化学习的经典问题,一个好的探索计谋可以极大地提高强化学习的效率,节约盘算资源。

例如,在下图所示的迷宫中,智能体(红色三角形)需要从第一个房间出发,逐个打开通往下个房间的门,最终到达终点(绿色方块)。智能体所能获得的奖励是希罕的,只有在到达终点的时刻才气获得奖励。若是不能举行有用的探索,智能体就不知道什么动作是合适的,从而很容易困在前几个房间,陷入局部更优。

研究现状和剖析

睁开全文

行业中处置探索问题最常用的方式是内部奖励(Intrinsic Reward)[2][3]。这种方式的基本逻辑是为首次发现的状态设计更大的奖励,从而激励智能体去探索未知区域。好比对于上面的迷宫问题,我们可以为没有进过的房间设计更大的奖励,从而让智能体自觉地去探索更多的房间。然而,已有的内部奖励方式在随机环境中效果会大打折扣。

例如,我们思量在每个新的回合发生一个完全不一样的房间情形。下图展示了四个差别的回合,每个回合房间的结构都不一样,智能体遇到的每个房间险些都是没见过的,内部奖励机制很难区分探索的利害。因此,我们需要新的的算法去应对环境随机性问题。随机的环境能更好地建模许多现实中的问题,好比股票交易、推荐系统、机械人控制等。

为了解决这个问题,该论文提出了回合排序算法(Rank the Episodes,简称 RAPID)。

回合排序算法

如下图所示,研究者提出了一种为每个回合的探索动作打分和排序的机制,以选出好的探索行为。

对每个回合发生的数据,该算法从三个差别的维度为探索动作打分。从局部角度,算法通过盘算覆盖率来打分。好比在上述迷宫中,该研究给接见更多房间的回合打更高的分,由于研究者希望算法能探索更多的房间。从全局角度,研究者希望每个回合只管接见与之前不一样的状态。最后,算法思量了外部的奖励巨细。在这种迷宫环境中,能取得较好的外部奖励往往意味着探索较好。

为了更好地行使这些好的探索行为,该研究设计了一个简朴的缓冲器来暂存分数更高的一批数据。然后,算法行使模拟学习去复现这些对照好的探索行为。例如,若是一个回合接见了许多的房间,算法会通过模拟学习去再现这种好的探索行为,从而间接激励智能体探索更多的房间。

回合排序算法可以有用地应对环境的随机性。首先,回合排序算法为整个回合打分,而不聚焦于某个详细的状态。这种整体的行为对随机性加倍鲁棒。其次,缓冲器机制可以把一些好的探索行为存起来重复行使,因此一个好的回合可以被学习多次,这从另一方面提高了算法的效率。

,

Usdt第三方支付接口

菜宝钱包(caibao.it)是使用TRC-20协议的Usdt第三方支付平台,Usdt收款平台、Usdt自动充提平台、usdt跑分平台。免费提供入金通道、Usdt钱包支付接口、Usdt自动充值接口、Usdt无需实名寄售回收。菜宝Usdt钱包一键生成Usdt钱包、一键调用API接口、一键无实名出售Usdt。

,

回合排序算法在随机环境中的效果

为了验证回合排序算法的有用性,该研究举行了大量的实验。在第一组实验中,该研究思量了多个来自于 MiniGrid [4] 的差别难度的迷宫:

研究者将回合排序算法和 SOTA 探索算法举行了对照。效果如下(其中 RAPID 为该研究提出的回合排序算法):

这些环境中的数字(SX-RY)代表迷宫中房间的巨细和数目。它们越大意味着环境越难探索。实验效果解释,回合排序方式在难题环境中的性能显著优于已有方式。好比在 MultiRoom-N7-S8 上,回合排序算法的学习速率比已有方式快十倍以上。在 KeyCorridor-S4-R3 上,回合排序算法是唯一有用的方式。

在第二组实验中,该研究思量了一个 3D 迷宫的情形,如下图所示。智能体看到的是一个第一人称视角的图片。类似的,迷宫的结构在每个回合会随机天生。智能体在这样的环境中需要学会怎么在原始的图片信息中探索。

实验解释回合排序算法显著优于已有方式,说明算法在原始图片上依然适用:

回合排序算法在非随机环境中的效果

在第三组实验中,研究者探讨了算法是否可以用于机械人控制。如下图所示,智能体需要操作机械人完成特定的义务,好比前进,跳跃,保持平衡等。

实验效果解释回合排序算法在这些非随机环境中依然有较好的效果:

总结

该研究为强化学习探索问题提供了一个新的解决思绪,差别于以往基于内部奖励的方式,回合排序算法将好的探索行为记录下来,然后通过模拟学习激励智能体探索。开端效果解释,该方式具有非常好的效果,特别是在具有随机性的环境中。

[1] Berner, Christopher, et al. "Dota 2 with large scale deep reinforcement learning." arXiv preprint arXiv:1912.06680 (2019).

[2] Pathak, Deepak, et al. "Curiosity-driven exploration by self-supervised prediction." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2017.

[3] Burda, Yuri, et al. "Exploration by random network distillation." International Conference on Learning Representations. 2018.

版权声明

本文仅代表作者观点,
不代表本站热搜网的立场。
本文系作者授权发表,未经许可,不得转载。

发表评论

评论列表(0人评论 , 38人围观)
☹还没有评论,来说两句吧...

站点信息

  • 文章总数:3578
  • 页面总数:0
  • 分类总数:16
  • 标签总数:764
  • 评论总数:1309
  • 浏览总数:1122608