基于函数逼近的强化学习与动态规则-00教育-零零教育信息网

李镇西	窦桂梅	魏书生	高考作文	中考作文	励志故事	鬼故事
民间故事	神话故事	历史故事	诗歌大全	经典散文	人教版:部编本:一年级语文
人教版:部编本:二年级语文		人教版:部编本:三年级语文		人教版课标本第一册:一年级语文上册

基于函数逼近的强化学习与动态规则

首页 > 图书 > 科技/2020-07-02 / 加入收藏 / 925 阅读 [打印]

基于函数逼近的强化学习与动态规则

作者：卢西恩.布索尼

开本：16开

书号ISBN：9787115508300

定价：129.0

出版时间：2019-04-01

出版社：人民邮电

6.3 交叉熵策略搜索 192
6.3.1 一般方法 192
6.3.2 基于径向基函数的交叉熵策略搜索 197
6.4 实验研究 199
6.4.1 离散时间二重积分 199
6.4.2 自行车平衡 206
6.4.3 HIV传染病控制的计划性间断治疗 212
6.5 总结与讨论 215

附录A 极端随机树 217
附录B 交叉熵方法 221
缩略语 227
参考文献 232

基于函数逼近的强化学习与动态规则作者简介

Lucian Bu?oniu：荷兰代尔夫特理工大学代尔夫特系统与控制中心博士后研究员。2009 年获得代尔夫特理工大学博士学位，2003 年获得罗马尼亚克卢日·纳波卡科技大学硕士学位。他目前的主要研究方向包括强化学习与近似动态规划、面向控制问题的智能与学习技术以及多Agent学习等。 Robert Babu?ka：荷兰代尔夫特理工大学代尔夫特系统与控制中心教授。1997 年获得代尔夫特理工大学控制专业博士学位，1990 年获得布拉格捷克技术大学电机工程专业硕士学位。他目前的主要研究方向包括模糊系统建模与识别、神经模糊系统的数据驱动结构与自适应、基于模型的模糊控制和学习控制，并将这些技术应用于机器人、机电一体化和航空航天等领域。 Bart De Schutter：荷兰代尔夫特理工大学代尔夫特系统与控制中心海洋与运输技术系教授。1996 年获得比利时鲁汶大学应用科学博士学位。他目前的主要研究方向包括多Agent 系统、混杂系统控制、离散事件系统和智能交通系统控制等。 Damien Ernst：分别于1998 年和2003 年获得比利时列日大学理学硕士及博士学位。他目前是比利时FRS-FNRS 的助理研究员，就职于列日大学的系统与建模研究院。Damien Ernst在2003—2006年间为FRS- FNRS 的博士后研究人员，并在此期间担任剑桥管理机构、麻省理工学院和美国国立卫生研究院的访问研究员，2006—2007学年在高等电力学院（法国）担任教授。他目前的主要研究方向包括电力系统动力学、最优控制、强化学习和动态治疗方案设计等。

2/2 首页上一页 1 2