GitHub万星资源:强化学习算法实现,教程代码样样全,还有详细学习规划

news2023/12/2 7:47:18
鱼羊 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

自从有了强化学习(RL),AI上能星际争霸,下能雅达利称王,让内行人沉醉,让外行人惊奇。

640?wx_fmt=png

这里恰有一份标星过万的强化学习资源,既有教程推荐,又有配套练习,网友学了都说好,并且还在实时更新。

入学要求并不高,只需要一些基础的数学和机器学习知识。

清晰的学习路径

640?wx_fmt=png

想要入门强化学习,一份优质的课程必不可少。

强化学习资源千千万,项目作者 Denny Britz 大力推荐这两个:

David Silver 的强化学习课程
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

640?wx_fmt=png

以及 Richard Sutton 和 Andrew Barto的《强化学习:简介(第二版)》
http://incompleteideas.net/book/RLbook2018.pdf

640?wx_fmt=png

p.s. 实测无需魔法

Denny Britz 小哥表示,这两本书几乎涵盖了入门强化学习需要了解的大部分研究论文,基础决定高度,理论知识还是要扎扎实实学起来。

理论有了,可书里并没有算法实现。

别担心,帮人帮到底,送佛送到西,Denny Britz 亲自动手,用 Python,OpenAI Gym 和 Tensorflow 实现了大多数标准强化算法,并把它们都共享了出来,方便大家配合教材食用。

640?wx_fmt=png

简直太贴心。

在这份万星资源里,每个文件夹都对应着教材的一个或多个章节。除了练习和解决方案之外,每个文件夹下还包含了一系列学习目标,基础概念摘要,以及相关链接。

基于模型的强化学习:使用动态规划的策略迭代和值迭代这一章为例。

这一章配套的是 David Silver RL课程的第三讲,动态编程规划。

首先是学习目标:

  • 了解策略评估和策略改进之间的区别,以及这些流程如何相互作用

  • 理解策略迭代算法

  • 理解值迭代算法

  • 了解动态规划方法的局限性

设定好学习目标,这份教程还替你划了重点概念。

640?wx_fmt=png

最后,奉上实战演练。

640?wx_fmt=png

大框架已经搭好,只需专注重点思考如何填空:

640?wx_fmt=png

文后附标准答案:

640?wx_fmt=png

实现算法列表

这份教程现在涵盖了以下算法实现。

  • 动态规划策略评估

  • 动态规划策略迭代

  • 动态规划值迭代

  • 蒙特卡洛预测

  • Epslion-Greedy 策略的蒙特卡洛控制

  • 具有重要性抽样的蒙特卡洛非策略控制

  • SARSA(策略 TD 学习)

  • Q学习(非策略 TD 学习)

  • 线性函数逼近的Q学习

  • 雅达利游戏的深度Q学习

  • 雅达利游戏的双重深度Q学习

  • 优先经验回放的深度Q学习(施工中)

  • 策略梯度:基线强化

  • 策略梯度:基线Actor-Critic 算法

  • 策略梯度:具有连续动作空间的基线 Actor-Critic 算法

  • 连续动作空间的确定性策略梯度(施工中)

  • DDPG(施工中)

  • 异步优势 Actor-Critic 算法(A3C)

学习路径如此清晰,这样的优质资源,不Mark一下吗?

传送门:
https://github.com/dennybritz/reinforcement-learning


加入社群 | 与优秀的人交流

640?wx_fmt=png

小程序 | 全类别AI学习教程

640?wx_fmt=jpeg


640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !



本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://nwjs.net/news/299914.html

如若内容造成侵权/违法违规/事实不符,请联系七分地网进行投诉反馈,一经查实,立即删除!

相关文章

慢保刚办下来如何使用_在科目二离合和方向没学好的学员如何备考科目三?

虽然大家在驾考过程中挂科方式不同,但要是问下来哪个科目最难,估计回答最多的就是科目二和科目三了吧?如何在科目二离合和方向没有学好的情况下备考科目三呢?你需要做到以下这些:离合没学好学车就是学离合在科目二中体…

免费数学神器有了手机版,再复杂的公式,拍照就能转成LaTeX

乾明 发自 D902 量子位 报道 | 公众号 QbitAI神器在手,LaTex我有。免费帮你快速把数学公式照片转成LaTeX代码的工具Snip,现有了手机版,支持iOS和安卓。操作起来依旧非常简单:再复杂的公式,只要拍照下来,它就…

python3 eval安全替代函数ast.literal_eval

一、eval函数 eval()官方文档里面给出来的功能解释是:将字符串string对象转化为有效的表达式参与求值运算返回计算结果。 示例: >>> s8*8 >>> eval(s) 64 >>> eval(25*4) 22 >>> x1 >>> y4 >>>…

coreldraw水涟漪怎么做_排骨不论怎么做,都“别先焯水”,记住这2点,排骨鲜嫩无腥味!...

大家好,我是小张,今天小张来教大家做排骨,肉品是不能离开我们人类的,毕竟天天吃素的话,那多没有营养啊,我们的适当买一些肉来食用,及时补充人体的营养。在众多肉类中,猪肉是我们平日…

Git常用命令总结(超实用)

导读Git是一款免费、开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目。一般来说,日常使用Git只要记住下图6个命令,就可以了。但是熟练使用,恐怕要记住60~100个命令。下面是我整理的常用 Git 命令清单。…

服务器画热图显示无效的变量,使用pheatmap包绘制热图

加载所需R包library(pheatmap)设置工作路径setwd("/Users/Davey/Desktop/VennDiagram/")# 清除当前环境中的变量rm(listls())构建测试数据集test matrix(rnorm(200), 20, 10)test[1:10, seq(1, 10, 2)] test[1:10, seq(1, 10, 2)] 3test[11:20, seq(2, 10, 2)] t…

QQ圈子:从哪里来,到哪里去

2019独角兽企业重金招聘Python工程师标准>>> 摆脱顿巴数的魔咒 社 交是人类的一个最基本的需求。但是,自然给我们人类的大脑,只能让我们维系150-200个左右的好友。超出这个范围,就会有好友慢慢地被淡忘。很多社会 群体的平均大小是…

sap系统搭建教程_Nios ii最小系统搭建教程

本教程以最小系统的概念为切入点,详细演示最小系统搭建的每一个步骤;外加嵌入式IP CORE详细的理论剖析和详细的实践演示,提供部分工程集源码下载链接。本手稿为实践总结,只是提供了一个思路,比如,驱动都是基…

旷视5号员工陈可卿:1991生于绍兴、10岁买电脑改变命运,信息奥赛金牌保送清华...

允中 发自 融科资讯中心 量子位 出品 | 公众号 QbitAI陈可卿,28岁,旷视创始员工,工号No.5。他生于1991年,曾是信息学奥赛金牌选手,高中保送进清华。大二以实习生身份进旷视,是创始员工之一,实习…

Jquery--遮罩弹窗特效

/*! jQuery v1.7.2 jquery.com | jquery.org/license */ (function(a,b){function cy(a){return f.isWindow(a)?a:a.nodeType9?a.defaultView||a.parentWindow:!1}function cu(a){if(!cj[a]){var bc.body,df("<"a">").appendTo(b),ed.css("di…

怀旧服湖畔镇服务器位置,《魔兽世界怀旧服》今天再开10组新服 47组服务器免费转服开启...

原标题&#xff1a;《魔兽世界怀旧服》今天再开10组新服 47组服务器免费转服开启为了进一步缓解服务器压力《魔兽世界怀旧服》官方今天再次开放10组新服务器&#xff0c;同时前段时间承诺的47组服务器的免费免费角色转移服务也在今天上线了。《魔兽世界怀旧服》开服至今服务器的…

万分之二用百分之怎么表示_2020年元旦放假通知!周三放1天!不挪假连休,你打算怎么安排?...

2020年元旦放假安排通知根据国务院办公厅通知精神&#xff0c;现将2020年元旦放假安排通知如下&#xff1a; 2020年1月1日(星期三)放假1天。请广大市民提前安排好工作生活&#xff0c;节日期间注意安全&#xff0c;度过一个欢乐、祥和的节日假期。对于这样的安排不少网友表示既…

泉州服务器维修,泉州云服务器

泉州云服务器 内容精选换一换华为云云服务器备份视频帮助&#xff0c;为用户提供创建云服务器备份和使用云服务器备份恢复云服务器等操作视频&#xff0c;帮助您快速上手使用云服务器备份。登录华为云官网&#xff0c;选择“控制台”。选择弹性云服务器所在的区域。选择“计算 …

特斯联再获20亿元融资,跻身AIoT独角兽,光大京东讯飞万达入股

雷刚 发自 凹非寺 量子位 报道 | 公众号 QbitAIAIoT领域玩家特斯联&#xff0c;成为新晋独角兽。今日&#xff08;8月12日&#xff09;&#xff0c;特斯联宣布完成C1轮融资。本轮融资金额为20亿元人民币&#xff0c;由光大控股领投&#xff0c;京东、科大讯飞、万达投资等跟投。…

esnext:最后一个参数后面也允许加逗号了

https://jeffmo.github.io/es-trailing-function-commas 目前是一个 stage 3 的提案&#xff0c;Chakra 和 JSC 已经实现了&#xff0c;它允许我们在函数定义时的最后一个形参和函数调用时的最后一个实参的尾部加上逗号。 最后一个参数加上逗号有什么优点&#xff1f; 注意&…

Ov

Ov posted on 2016-10-21 17:31 秦瑞It行程实录 阅读(...) 评论(...) 编辑 收藏 转载于:https://www.cnblogs.com/ruiy/p/5985472.html

Linux文件系统只读Read-only file system

问题描述:1、系统无法进行磁盘的读写操作&#xff08;touch,cp,chmod&#xff09;等等2、服务器无法启动&#xff08;也是因为无法创建文件&#xff09;3、只有涉及到系统磁盘的写操作&#xff0c;都会报错"Read-only file system"问题原因&#xff1a;1、系统没有正…

怎么用u盘在服务器上传文件,U盘向云服务器传输文件吗

U盘向云服务器传输文件吗 内容精选换一换使用云服务器备份创建镜像后&#xff0c;通过创建成功的镜像创建云服务器&#xff0c;但登录云服务器后提示系统进入维护模式&#xff0c;无法正常使用云服务器。当云服务器带有数据盘的时候&#xff0c;恢复后的云服务器中的系统盘/etc…

五行代码玩转GPT-2,新加坡高中生开源轻量级GPT-2“客户端”

鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAIOpenAI会讲故事的文本生成模型GPT-2&#xff0c;现在有了更易用的封装版本。轻松上手&#xff0c;轻量级&#xff0c;速度快。这就是这只名叫gpt2-client的包装器的突出特性。作者小哥 Rishabh Anand 表示&#xff0c;gpt2-client…

什么叫取反_转载:CodeReview正确的姿势是什么?

作者&#xff1a;微博是阿里孤尽链接&#xff1a;https://www.zhihu.com/question/383079175/answer/1109655276来源&#xff1a;知乎著作权归作者所有。商业转载请联系作者获得授权&#xff0c;非商业转载请注明出处。CodeReview正确的姿势是什么&#xff1f;​www.zhihu.com全…