首页>国内 > 正文

Meta推出MoDem世界模型：解决视觉领域三大挑战，LeCun转发

2023-01-02 14:00:08来源：新智元

12月27日，MetaAI 负责视觉和强化学习领域的A

(相关资料图)

截止27日晚间，这篇推文的阅读量已经达到73.9k。

他表示，仅给出5个演示，MoDem就能在100K交互步骤中解决具有稀疏奖励和高维动作空间的具有挑战性的视觉运动控制任务，大大优于现有的最先进方法。

有多优秀呢？

他们发现MoDem在完成稀疏奖励任务方面的成功率比低数据机制中的先前方法高出150%-250%。

Lecun也转发了这一研究，表示MoDem的模型架构类似于JEPA，可在表征空间做出预测且无需解码器。

链接小编就放在下面啦，有兴趣的小伙伴可以看看~

论文链接：https://arxiv.org/abs/2212.05698

Github链接：https://github.com/facebookresearch/modem

研究创新和模型架构

样本效率低下是实际应用部署深度强化学习 (RL) 算法的主要挑战，尤其是视觉运动控制。

基于模型的RL有可能通过同时学习世界模型并使用合成部署来进行规划和政策改进，从而实现高样本效率。

然而在实践中，基于模型的RL的样本高效学习受到探索挑战的瓶颈，这次研究恰恰解决了这些主要挑战。

首先，MoDem分别通过使用世界模型、模仿+RL和自监督视觉预训练，解决了视觉强化学习/控制领域的三个主要挑战：

大样本复杂性（Large sample complexity）高维状态和动作空间探索（Exploration in high-dimensional state and action space）同步视觉表征和行为学习（Simultaneous learning of visual representations and behaviors）

这次的模型架构类似于Yann LeCun的JEPA，并且无需解码器。

作者Aravind Rajeswaran表示，相比Dreamer需要像素级预测的解码器，架构繁重，无解码器架构可支持直接插入使用SSL预训练的视觉表示。

此外基于IL+RL，他们提出了一个三阶段算法：

BC预训练策略使用包含演示和探索的种子数据集预训练世界模型，此阶段对于整体稳定性和效率很重要通过在线互动微调世界模型

结果显示，生成的算法在21个硬视觉运动控制任务中取得了SOTA结果（State-Of-The-Art result），包括Adroit灵巧操作、MetaWorld和DeepMind控制套件。

从数据上来看，MoDem在各项任务中的表现远远优于其他模型，结果比之前的SOTA方法提升了150%到250%。

红色线条为MoDem在各项任务中的表现

在此过程中，他们还阐明了MoDem中不同阶段的重要性、数据增强对视觉MBRL的重要性以及预训练视觉表示的实用性。

最后，使用冻结的 R3M 功能远远优于直接的 E2E 方法。这很令人兴奋，表明视频中的视觉预训练可以支持世界模型。

但8月数据强劲的E2E与冻结的R3M竞争，我们可以通过预训练做得更好。

关键词：运动控制强化学习的重要性在实践中直接插入

相关新闻

Meta推出MoDem世界模型：解决视觉领域三大挑战，LeCun转发

12月27日，MetaAI负责视觉和强化学习领域的A截止27日晚间，这篇推文的阅读量已经达到73 9k。他表示，仅...
十年来论文量激增，深度学习如何慢慢推开数学推理的门

数学推理是人类智能的关键体现，它使我们能够理解并做出基于数值数据和语言的决策。数学推理适用于各个...
整个元素周期表通用，AI 即时预测材料结构与特性

材料的性质由其原子排列决定。然而，现有的获得这种排列的方法要么过于昂贵，要么对许多元素无效。现在...
文本图片编辑新范式，单个模型实现多文本引导图像编辑

论文简要概述利用文本对图像进行编辑的相关研究非常火热，最近许多研究都基于去噪扩散模型来提升效果而...
CDN是什么？用了CDN就一定比不用更快吗？

对于开发同学来说，CDN这个词，既熟悉又陌生。平时搞开发的时候很少需要碰这个，但却总能听到别人提起...
都已经2023年了，你还不知道StampedLock吗？

概述想到读写锁，大家第一时间想到的可能是ReentrantReadWriteLock。实际上，在jdk8以后，java提供...
如何在 Linux 中降级 Flatpak 软件包

从技术上讲，小版本或次要更新是为了解决问题。但是，当某些更新破坏你当前的工作流程时，情况可能会变...
AI短视频赛道：只需一个提示词，文本影像画外音一键搞定

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。小美、小帅、丧彪和佛波勒，这几位...
这才是Excel未来的样子，口喊求和什么的弱爆了

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。不知各位是否有过被Excel支配的恐...
量子物理学的四个常见误解：薛定谔的猫、无人理解量子力学……

量子力学，是主宰原子和粒子微观世界的理论，自有其独有的魅力和特点。与诸多其他物理学领域不同，它奇...
MIT开发出「纸张」太阳能电池，效率翻18倍，重量不到原来百分之一

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。和纸一样薄的太阳能电池，你见过吗...
人类没有足够的高质量语料给AI学了，2026年就用尽，网友：大型人类文本生成项目启动！

AI胃口太大，人类的语料数据已经不够吃了。来自Epoch团队的一篇新论文表明，AI不出5年就会把所有高质量...
图解ReentrantLock的条件变量Condition机制

概述想必大家都使用过wait()和notify()这两个方法吧，这两个方法主要用于多线程间的协同处理，即控制线...
单个GPU，只花一天时间，能把BERT训练成什么样

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。单个GPU，只花一天时间，能把BERT...
一文看懂AI数学发展现状，清华校友朱松纯学生一作，还整理了份必备阅读清单

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。AI学数学，确实有点火。且不论这两...

聚焦

IT

科技

Copyright 2015-2020 三好网版权所有联系邮箱：435 22 640@qq.com 备案号：京ICP备2022022245号-21