华人博士用强化学习回收了SpaceX火箭_城市科技网

马斯克旗下的SpaceX可以说带火了“火箭回收”这一话题。这不，连粉丝们都已经开始摩拳擦掌，用自己的方式挑战起了这个技术难题。例如一位来自密歇根大学的华人博士，就用强化学习试了一把回收火箭！

博雯发自凹非寺

他根据现实中的星舰10号一通进行模拟，还真在虚拟环境中稳稳地完成了悬停和着陆！

这个项目迅速在Reddit上引发了大批网友们的关注：

那么，他是如何实现的呢？

给火箭回收设立“奖励机制”

要在模拟环境中回收火箭，那么大一只构造复杂的火箭肯定是不能直接抱来用的。

于是，这位SpaceX的铁杆粉丝首先基于气缸动力学，将火箭简化为一个二维平面上的刚体：

这个火箭的底部安装有推力矢量发动机，能够提供不同方向的可调的推力值（0.2g，1.0g和2.0g）；同时，火箭喷嘴上还增加了一个角速度约束，最大转速为30°/秒。

火箭模型所受到的空气阻力则设定为与速度成正比。

现在，这个模型的一些基本属性就能够以下面两个集合来表示：

动作空间：发动机离散控制信号的集合，包括推力加速度和喷嘴角速度

状态空间：由火箭位置、速度、角度、角速度、喷管角度和仿真时间组成的集合

而“火箭回收”这一流程，则被分为了悬停和着陆两个任务。

在悬停任务中，火箭模型需要遵循这样一种奖励机制：

火箭与预定目标点的距离：距离越近，奖励越大；

火箭体的角度：火箭应该尽可能保持竖直

着陆任务则基于星舰10号的基本参数，将火箭模型的初始速度设置为-50米/秒，方向设置为90°（水平方向），着陆燃烧高度设置为离地面500米。

△星舰10号发射和着陆的合成图像

火箭模型在着陆时同样需要遵循这样一种“奖励机制”：

当着陆速度小于安全阈值，并且角度接近竖直0°时，就会受到最大的“奖励”，也会被认为是一次成功的着陆。

总体而言，这是一个基于策略的参与者-评判者的模型。

接下来就是进行训练：

最终，在经历了 20000次的训练后，火箭模型在悬停和着陆两个任务上都实现了较好的效果：

最终，模型得到了很好的收敛效果：

而这枚模拟环境中的伪·星舰10号，也就像开头展示的那张动图一样，学会了腹部着陆，稳稳地落地了。

下一步：增加燃料变量

这一项目一经发出，就引来了红迪众多网友的围观和称赞。

有人觉得用强化学习来解决传统任务非常有趣，因为它具有更好的鲁棒性。

作者也在下方回复表示：现实中恶劣的环境条件可以成为环境制约因素，而强化学习则能在一个统一的框架内解决这些问题。

不过在称赞之余，也有网友提出了最直接的这样一个问题：

既然我们已经可以使用经典控制方法找到这些任务的最优解，那为啥SpaceX之前没人做？

下方有人解答到：这或许是因为之前的数字控制系统、传感器等技术并不成熟，采用新方法就意味着要重新设计火箭的关键部分。

这也就是控制系统层面之外的“工程类的问题”，而SpaceX正是在这些相关领域中做了改进。

而那些较为传统保守的航天航空工业则会使用使用凸优化（Convexification）来解决火箭着陆问题。

也就是评论区有人贴出的这篇论文中提到的方法：

不少评论也为开发者提供了下一步开发的新思路，比如这条评论建议将“剩余燃料”也作为一个变量，模型燃料的减少或耗尽也是现实中的一个重要影响因素。

作者欣然接受了这一建议：是很容易添加的有趣设置，安排！

密歇根大学华人博士

开发者已经为这一项目建立了一个网站，在主页他这样介绍到：

这是我的第一个强化学习项目，所以，我希望通过这些“低水平代码”尽可能地从头实现包括环境、火箭动力学和强化学习agent在内的所有内容。

作者叫Zhengxia Zou，是一位来自密歇根大学博士，主要研究计算机视觉、遥感、自动驾驶等领域。

他的论文曾被 ICCV 2021、CVPR 2021等多个顶会收录：

下载链接：

https://github.com/jiupinjia/rocket-recycling

项目主页：

https://jiupinjia.github.io/rocket-recycling/

参考链接：

https://www.reddit.com/r/MachineLearning/comments/qt2tws/pr_rocketrecycling_with_reinforcement_learning/

标签：人物华人博士用强化学习回收了SpaceX火箭 cnBeta

责任编辑： jkl2

“表演服”用完就退？不能放任后悔权被滥用世界短讯
“七天无理由退货”本是为了保护消费者合法权益，但有人利用...
周大生：去年电商业务收入同比增35%，今年目标超去年增速_全球看点
周大生在机构调研时表示，2022年电商业务收入同比增长34 65%...
视频号运费险正式上线，首次投保根据经营类目有5档选择环球播报
据亿邦动力消息，腾讯发布“视频号小店运费险”服务指南，视...
淘宝发布中小商家造星计划，推出最高2000元广告补贴券
淘宝宣布启动中小商家的造星计划，推出包含最高2000元广告补...
OpenAI CEO：OpenAI还没有开始训练GPT-5大模型天天播报
据外媒报道，OpenAI首席执行官SamAltman在印度经济时报主办的一场会议
亚马逊与Hexa达成协作，支持卖家创建3D图像
据亿邦动力消息，亚马逊和3D可视化公司Hexa达成一项新举措，...
属于王亚伟的时代一去不返
近日屡有传闻称，昔日“公募一哥”王亚伟已被监管部门带走调...
今头条！渤海化学：全资子公司渤海石化拟投建丙烯酸酯和高吸水性树脂新材料项目
渤海化学公告，全资子公司渤海石化拟投资建设丙烯酸酯和高吸...
上常从容与信言诸将能不文言文翻译通假字_上常从容与信言诸将能不,各有差翻译
想必现在有很多小伙伴对于上常从容与信言诸将能不,各有差翻译...
环球快看：信濠光电：公司暂未涉及上述VR、MR领域
同花顺金融研究中心6月7日讯，有投资者向信濠光电提问，请问...

智能

智联世界，元生无界！快手虚拟人IP亮相2022人工智能大会

2022-09-07 10:47:54
机器人界“奥林匹克”！2022世界机器人大会8月18日举行

2022-08-10 09:58:58
2025年全球人口将达到90亿！机器人将在农业领域大显身手

2022-07-14 09:41:10
中科院院士蒋华良：AI+分子模拟与药物研发将大有可为

2022-07-14 09:37:00
“千垛之城荷你有约” 2022兴化市荷文化旅游节正式开幕

2022-07-07 09:28:34

消费