撰文:Vicky 今年2月左右,小米、蚂蚁金服、阿里巴巴达摩院、玉树等纷纷发布开源机器人模型。此前,NVIDIA在CES上推出了GR00T N1.6,更新了其号称的“全球首款开放式人形机器人基础模型”。这些消费电子公司、互联网巨头和芯片帝国最近把机器人的“大脑”拿走了,送给了全世界。开源机器人模型的生态系统中到底有怎样的阴谋和数百万美元的赌注?在这篇文章中,我们将继续我们的机器人系列。之前我们看了目前嵌入式智能通用的VLA模型,解构了Tesla、Figure等闭源巨头的各种路径,以及他们如何利用自己的硬件和数据优势来构筑自己的护城河。本文考察了开源算法道路上的主要参与者和关键技术领导者,经过与世界一流的 Embodied Intelligence Institute 研究人员的深入培训。同时尝试回答这三个问题:第一,这些开源模型走的是什么技术路线?而他们为何能够挑战巨头呢?第二:开源的动力是什么?什么是“真”开源,什么是“假”开源?第三:开源模式的生态系统是什么样的?面对特斯拉这样的对手,开源社区能做些什么呢? (本文由视频剪辑而成,请务必观看下面的视频) 01 开源 谁在创建景观模型,它采取了什么路径?在开源建模者中,VLA 模型仍然是主流。简单来说,就是机器人“看到”周围的环境、“理解”指令并“执行”正确的动作。目前,开源VLA模型可以分为四种力量。 1.学术:参数不大,但小参数可以产生很大的差异。代表性的流行型号是OpenVLA和Octo。 2、绿色大团体:他们不仅创造典范,还创造设计整个工具链,例如 NVIDIA 的 GR00T N1 和 Google 的 Gemini Robotics。 3. 初创企业与中国力量:自变量、OpenMind、小米、蚂蚁等。 4. 极限技派:追求最大精度和泛化能力。一个典型的模型是身体智力的 π₀。 1.1:学术理想主义 OpenVLA 声誉之战将于 2024 年 6 月展开。这个开源模型仅用 70 亿个参数,在 29 项机器人操纵任务中彻底击败了 Google DeepMind 的“高端”RT-2-X。 RT-2-X拥有550亿个参数,是OpenVLA的八倍,并且背后拥有Google所有的计算能力和数据资源。但结果显示OpenVLA的成功率比RT-2-X高16.5%。 OpenVLA 体积小,功能强大,并且基于非常巧妙的架构设计:两个视觉编码器来增强语言模型。如果你将它与 Google RT-2-X 进行比较,你可以想象一个非常聪明的人什么事情都自己做,因为他只使用视觉编码器。能力很强,但处理信息的效率较低。 OpenVLA使用两个视觉编码器,相当于拥有“两双眼睛”。第一只眼睛称为 DINOv2,负责理解空间关系。第二只眼睛被称为“SigLIP”,专门用于理解语义和常识。当时开源的大型语言模型Llama 2充当“大脑”,整合空间和语义信息来处理指令和推理。简单地说,OpenVLA就像一个由三人组成的小团队,在物理上分离两类信息,优化每一种信息并做出统一决策以加强整体。 “他能超越诸葛亮三个白痴。可以理解为只有一个人。这个架构证明了在体现智能领域,‘更大’不仅仅意味着‘更聪明’。OpenVLA还受益于一个名为“Open Google wil”的数据集。l 取决于“数据+架构+训练策略”的综合结果。此外,获胜后,OpenVLA 完全开源,所有代码、模型权重和训练脚本均公开可用。这种开放性让整个 Industry.ria 兴奋不已,很多优化、推理加速以及后续的调整都开始了。这是一个非常典型的开源故事,用创新的方式“规模化、小规模地竞争”,并在整个技术领域发挥后续工作的优势。我们再来说说另一个具有代表性的开源根“Octo”。如果说OpenVLA的意思是“大规模开源”,那么Octo就是“通用开源”。我们意识到机器人算法的“泛化”是一个重大挑战。此前,标准方法是使用特定的数据集来训练特定的机器人策略。然而,如果你改变了机器人或者环境,你就必须重新训练一切。开源社区的一些领先公司希望实现建立一个“通用机器人模型”,并通过 ZeroShot 等技术将该模型扩展到广泛的机器人和场景。这条路径被称为“estuniversal Robot Rategy”,Octo 就是其中的一个代表例子。 Octo只有数千万个参数,比OpenVLA少。这是一个基于Transformer的扩散策略模型。该设计强调灵活性和可扩展性,支持多种机器人平台和传感器配置,并通过调整快速进入新的观察和行动空间。它可以进行调整。这使得 Octo 可以广泛应用于各种机器人学习场景。 Octo并不是最强的,但它的定位是任何人都可以使用它。我们希望为开源社区提供一个更轻量、更快速适配的通用策略基础模型。 1.2 庞大的综合生态服务 2025年3月的GTC大会上,黄仁勋先生亲自站出来发布了号称“全球第一”的GR00T N12026年1月CES发布N1.6版本。GR00T N1采用双系统架构,其中基于视觉语言模型的“系统2”负责缓慢思考、测试、理解环境、解释指令和计划。基于扩散变压器的“系统1”负责快速思考,并将计划转化为频繁而精确的关节动作。两个系统端到端联合训练,紧密耦合。2.2十亿个参数、模型权重和代码已经公开,许多主要的人形机器人公司已经获得了使用它们的优先权,而且 NVIDIA 不只是提供一个模型,它还提供了一个完整的生态系统,这意味着它是一个完整的、端到端的服务,它使用 Omniverse 来创建数字孪生、Isaac Sim 来生成合成训练数据、Cosmos 来生成视频数据,而 Google 还在继续开发机器人的整体策略。首先RT-1将代码和数据开源,后来功能更强大的RT-2以及后来的RT系列都成为闭源型号,不对外公开。谷歌最近也加速了。 Gemini Robotics 模型系列将于 2025 年推出,前波士顿动力 CTO Aaron Saunders 将受聘担任硬件工程副总裁。 DeepMind 首席执行官 Demis Hassabis 是优傲机器人公司的首席执行官。这种为 Gemini 构建操作系统并使其成为各种机器人的“大脑”的愿景就是我们所说的“机器人的 Android”。在 CES 2026 上,波士顿动力公司和 Google DeepMind 宣布开展战略合作,将 Gemini Robotics 模型集成到 Atlas 人形机器人中。预计很快将在两家公司的实验室开始联合研究。谷歌希望从开源转向闭源,然后打造“机器人世界的Android”。虽然轨迹转变快了一点,野心大了一点,但是你毫无疑问,它是机器人行业最重要的参与者,我们将拭目以待它的下一步行动。 1.3 初创企业与中国力量 中国在开源嵌入式智能领域的参与正在加速,情况正在从单纯的“跟随”转变为“参与定义规则”。 2月12日,小米刚刚推出了拥有47亿参数的小米机器人0。采用MoT混合架构,将“大脑”(视觉语言理解)和“小脑”(动作执行)分离,改善了VLA模型常见的推理延迟问题。该模型是开源的,可以在消费级 GPU 上运行。蚂蚁集团的 LingBot-VLA 走了一条不同的路,强调跨模态泛化。该模型使用超过 20,000 小时的真实数据在 9 个不同的双臂机器人上进行了预训练。目标是实现“用单脑控制所有类型的机器人”,类似于上面提到的“通用机器人策略”。 X-VLA,联合推出清华航空与上海人工智能研究院联合修改了5个主要仿真基准。所有代码、数据和权重都是公开的。它是学术界最完整的开源模型之一。星海图开源了真实世界数据集和最新的G0 Plus VLA模型。致远机器人的GO-1以一架真实的飞机呈现给Missy我运行了选项。星动时代的ERA-42也在寻找自己的道路。此外,自变量机器人是一家中国初创公司,专注于开发通用机器人“大脑”。 CTO王浩此前在硅谷101播客采访中谈到了开源的初衷。王浩,自变机器人有限公司CTO。我们将继续传承开源精神,吸收大量经验。使用大约数万小时的真实世界数据,我们开发并扩展了一个基本的视觉语言模型,该模型经过训练具有相对稳健的视觉语言模型。视觉理解、空间推理以及遵循多语言指令的能力。同时动作生成的准确度也比较高。我们也希望这次开源能够更好的补充嵌入式智能行业。在其他硅谷初创公司中,我们采访了由斯坦福大学教授 Jan Liphardt 创立的 OpenMind。他在接受采访时表示,他希望为不同制造商的人形机器人建立一个通用的软件层。 OpenMind推出的OM1平台强调开源和硬件之间的兼容性,希望打破目前机器人系统的封闭状态,让不同设备共享功能和生态。它们也代表了一条纯粹的开源路径,以开源为核心理念,从头开始构建物化智能平台。 Jan Liphardt OpenMind 创始人 我们真正想做的是让任何人在任何地方都能更轻松地构建能够执行任务的机器人各种有用的任务。所有这些都可以通过简单地更改消息的文字来实现。 1.4 复仇者联盟:PI(π₀) 目前开源界最流行的模型π₀是Physical Intelligence发起的VLA模型,是十亿级参数。 π₀将“连续控制”追求到了极致,它代表了另一种思想:在动作生成部分,π₀利用流匹配的思想,直接生成连续的关节轨迹。这意味着模型输出软控制信号。物理智能研究员、π₀和π₀.₅论文作者柯立一鸣在接受硅谷101播客采访时表示,π₀的控制频率约为50赫兹,即每秒更新约50个动作。这种持续的高频控制代表着质的飞跃。 π₀ 可以执行折纸和扑克牌等需要非常高精度的任务,这是 OpenVLA 和 Octo 都难以实现的。凯克物理智力nce 研究员,π₀,π₀.₅ 文章作者。当时,公司内部就是否延长或缩短进行了争论。但对我们来说,也许最重要的是我们希望建模者在一次呼吸中生成一个大约一秒长的计划。第二个频率恰好是 50 Hz,因此这是这些选项之一。 π₀的设计理念强调“控制的质量”和“运动的连续性”。与将行为视为语言相比,奥肯预测控制信号将更多地采用传统控制系统的形式,只不过它们将由大规模模型生成。这种选择的好处是动作更顺畅,在叠衣服、抓握柔性物体和操作小零件等任务中减少烦躁和延迟。同时,π₀的代码和权重通过OpenPI项目向外界公开,允许研究社区对其进行复制和扩展。虽然这种做法不它在商业公司中并不常见,但已成为开源领域的主力军。另一个令人担忧的原因是 π₀ 的步速重复。在论文第一个版本发布后不久,Physical Intelligence 通过 OpenPI 项目公开了模型权重和代码。接下来的几个月,团队不断发布更新版本,不断提升泛化能力和控制稳定性。接下来,我们进一步提高政策绩效,同时强调开放环境的适应性。引入强化学习机制进行优化。这种快速迭代和持续公开更新在机器人领域并不常见,也是 π₀ 获得关注的关键原因之一。 Kay Ke 体智能研究员,π₀、π₀.₅文章作者。 π₀.₅ 将模型转换为移动机器人,并将移动机器人放置在另一个隐形房屋中。这些不包含在模型数据集中。型号可能没有知道他会如何反应,但然后观察他会做什么。在此过程中,我们发现了实现泛化的巨大希望。尽管机器人的性能并不完美,但它似乎表现出了接近人类的特征。例如,您还可以拾取在家中其他场景中发现的东西。 1.5 开源领域人物关系 不同领域背后的关键核心人物并不矛盾。他们的关系密切而复杂。更有趣的是,许多曾经领导闭源模型的顶尖科学家后来成为开源机器人社区的领导者。他们也被称为机器人世界的“复仇者”。 OpenVLA诞生于斯坦福大学和伯克利分校的联合团队,其核心人物是该领域的明星Chelsea Finn。他毕业于麻省理工学院并获得学士学位,并于伯克利分校获得博士学位。我在那里学习,我遇到了彼得·阿贝尔和谢尔盖·莱文,他们是学习教父克机器人技术。 2019年,他在斯坦福大学担任教职,并在此过程中获奖。她还是Physical Intelligence 的联合创始人,该公司横跨学术界和商业界。仅 Chelsea Finn 就汇集了开源和闭源领域的一半。除了 Finn 教授之外,OpenVLA 作者名单还包括来自斯坦福大学和伯克利大学的研究人员,以及来自丰田研究院、Google DeepMind、Physical Intelligence 和 MIT 的科学家。这表明 OpenVLA 不仅仅是一个秘密构建的实验室产品。我是。 Octo和OpenVLA可谓“同场兄弟”,均来自伯克利,由Chelsea Finn和Sergei Levin团队联合制作。谢尔盖·莱文 (Sergey Levine) 是机器人强化学习领域的著名先驱之一。他是伯克利大学的教授,也是谷歌大脑的前研究员。后来他成为Physical Intelligence的联合创始人兼首席科学家。他和芬恩是博士生导师和博士生。有趣的是,在 Google 期间,Levine 和 Finn 参与了 RT-1 和 RT-2 等闭源项目,离开 Google 后,他们参与了 Octo 和 OpenVLA 等开源项目。你可以说,这个领域的同一批人建造了闭源堡垒,并打开了开源之门。 PI的创始团队堪称机器人AI领域的“复仇者”。所有联合创始人都是学术界和科技公司的知名人士。其中,Karol Hausmann 是 Google DeepMind 机器人领域的高级研究员,也是 RT-1、RT-2 和 SayCan 等标志性机器人大型模型研究的主要作者之一。同样来自 Google Brain 的 Brian Ichter 深入参与了这些项目的研究和开发,并且是那一代机器人基本模型的关键推动者。 Sergey Levine 是 Google Brain 的长期合作者,处于机器人学习的全球前沿和强化学习。是这条技术路线的主要思想来源之一。我之前多次提到的 Chelsea Finn 也是 PI 的联合创始人之一。他还参与了RT系列研究,并在机器人泛化和自监督学习方向做出了重要贡献。 2024年初,这些曾参与谷歌机器人基础模型的核心成员纷纷离开谷歌,共同创立了物理智能(PI)。此外,团队成员还包括前 Stripe 高管和著名投资者 Lachy Groom、前 Anduril 投资者 Lachy Groom 以及工程副总裁 Adnan Esmail。坦率地说,这是他们在闭源领域最精通技术,并决定突破它并以不同的方式做事。然而,π₀的身份非常“复杂”。这来自一家新成立的营利性公司,该公司已筹集了超过 10 亿美元的资金,估值为 56 亿美元。为什么这些com公司开源他们的核心模型?这给我们带来了第二个中心主题:“真实”与“假”开源。 02 “真”与“假”免费开源背后的商业动机 2.1 物理智能:最“阴谋”的开源物理智能成立于2024年。投资者包括Jeff Bezos、OpenAI、红杉资本、Kh Osla Ventures。该公司于 2024 年 11 月筹集了 4 亿美元,并于 2025 年 11 月又筹集了 6 亿美元,将其估值提高至 56 亿美元。这么有钱的公司为什么要放弃自己的型号?专业?答案是:这可能是物理智能中最“阴谋”的交易策略。首先,开源制定标准。随着世界各地的机器人开发人员(无论是学术实验室、初创公司还是工业客户)基于 π₀ 框架创建应用程序,PI 成为事实上的标准制定者。每次有人使用它,π₀的生态状态就会得到加强。其次,开源吸引人才。伟大的研究她的愿望是去一个可以发表文章并对行业产生影响的地方。 PI 开源 π₀ 后,其 openpi GitHub 存储库成为机器人领域浏览量最高的项目之一,这比任何招聘广告都更有效。第三,开源加速数据飞轮。社区使用模型、发现问题、进行改进并贡献数据。所有这些都会反馈给 PI,以推动下一代 model.vinegar。 Kay Ke 物理智能研究员,π₀,π₀.₅ 文章作者 我相信通过与业界和社区分享模型,大家可以快速上手,降低隐藏机器人模型研究的准入门槛。其实在内部,开源也是一个(研发)过程,从决定开源开始,动员大家根据刚刚发表的研究成果重新构建代码,然后进行测试,然后与社区中的一些开发者进行交流。团结起来看看能不能做到。虽然这不是一件容易的事,但看到我们的模型在一些我们没有想到的机器人上运行,并看到其他人可以使用我们的模型进行各种实验,仍然是非常值得的。现在每个人都对开源感到满意。我认为这是一个很好的环境。但请注意,π₀ 并非 100% 开源。虽然模型权重和推理代码是公开的,但整个训练过程和 PI 内部收集的数万小时的专有数据却不是公开的。这是精心设计的“流量开源、闭源变现”策略,即用开源模式吸引开发者进入生态,用闭源数据和训练能力保持竞争优势。换句话说,社区可以使用该模型,但如果他们想要最好的版本,他们需要访问它。 2.2 NVIDIA GR00T N1:“开放”并不意味着开源。如上所述,NVIDIA 不仅提供 GR00TN1 模型,也是一个完整的生态系统,包括生成合成训练数据、物理引擎等的工具。听起来很“开放”,但为什么有人说GR00T N1是“伪开源”呢?该模型是开放的,但整个过程都在 NVIDIA 生态系统内。该训练与 NVIDIA 硬件生态系统密切相关,使用 H100 集群进行训练,并由 Omniverse 平台提供支持。它在平台上进行模拟,使用Isaac Sim生成合成数据,最后在Jetson Thor芯片上实现。相比纯粹的公司,OpenVLA、Octo等开源领域没有硬件绑定,也没有生态锁定,可以运行在任何GPU上。或许这就是“开放”与“开源”的根本区别。但在一个行业的早期阶段,可能没有正确或错误的选择。学术开源追求知识共享和科学可重复性,商业开源追求生态管理和市场立场ARDS 和战略开源追求封锁平台和硬件销售。王浩自变量机CTO 我相信AI的研究将会和之前的大模型有很大的不同。我们看到,过去的调查是非常谨慎的。在社区真正形成之前,可能只有两三个人在做研究。为了在技术上取得领先,大家都忙于研究算法,发表文章是他们的首要任务。但说到社区和整个开源系统,大家更感兴趣的是如何让这个项目在工程体系下站稳脚跟,让这个社区更加繁荣。个人如何为社区做出贡献?相反,每个人的荣誉都是由此而来。这也有利于开源模型技术的持续发展。这就是为什么我认为开源是一件非常好的事情。不,你不仅可以从中学到新东西,还可以还要看到你拥有的东西对其他人也有用。 03 绿色能源模型+数据+工具“组合拳” 特斯拉有自己的工厂、自己的机器人、自己的数据闭环。 Nvidia 拥有世界上最强大的计算能力。谷歌吸引了最优秀的人才。开源界的一群大学教授和商业团队如何与这些巨头竞争?答案是生态。仅开源模式如果你看一下,它与闭源巨头相比相形见绌。然而,模型、数据和工具三层的生态叠加创造了不同故事的“组合打击”。 Jan Liphardt OpenMind 创始人 为了使人形机器人正常工作,其软件和硬件必须进行极其精细的调整。这种协调必须非常密切,甚至能够暗示看似基本的要素,例如不同类型的传感器、电压管理、电压调节器、热控制和系统稳定性。但根据多位人士的采访机器人公司,当一家公司在完全封闭的环境中独立开发技术时,常常会遇到技术难以落地的问题,因为它只是在自己的实验室里创造出来的,没有经过外部验证。具体名字我就不提了,但是听说有一家非常有名的公司,在自主研发人形机器人的芯片。这听起来确实是一个好主意,他们甚至已经弄清楚了芯片的完整架构。但问题是,这种架构实际上有很多错误,因为没有其他人参与使用和测试它。换句话说,闭源可能看起来很安全,但如果没有社区来帮助测试和改进它,它可能会成为一件苦差事或一个人的事情。 3.1 数据基础:开放的化身 如上所述,OpenVLA 是利用 Open X-Em 诞生的。主要数据集。特斯拉的开放数据可能更大,但这一切都来自于特斯拉环境中的机器人擎天柱。该什ape data只有图01和图02所示的操作。Open X-Embodiment是数十个不同形状的机器人在完全不同的场景(例如厨房、实验室、仓库和办公室)收集的数据。为什么数据多样性比数据数量更重要?让我们用训练 RT-X 模型的实验结果来解释一下。 RT-1-X 在小数据域上的性能与单独训练的模型相似。贵了50%。 RT-2-X还具有原始模型中没有的空间推理能力,比RT-2大三倍。能够理解细微的语言差异,例如“at”和“near”。这意味着“上”意味着建立物体之间的接触和支撑关系,“近”仅仅意味着空间接近,我们开始理解语言的空间语义。最重要的是,您将能够执行在培训中从未见过的技能。这直接说明了只要数据足够多样化,即使模型不是最大值,性能也可以显着提高。 Kay Ke 物理智能研究员,π₀,π₀.₅ 文章作者 在研究 π₀ 时,我创建了一个相对简单的统计数据。换句话说,π₀ 使用的数据比 Google Research 收集的所有数据加起来还要多。即使在 π₀ 发布时,PI 仍然是一家非常年轻的公司。我认为这实际上说明了两件事。第一个是我唱的时候采集的数据量肯定是非常大的,然后添加数据,成本和数据量是实时变化的。当谷歌研究院开始调查时,我们花了很多精力来接收这些数据,但随着时间的推移,随着我们积累经验,PI 和其他公司收集数据、控制和降低成本应该变得越来越容易。它对数据格式标准化的贡献也很显着。以前最大的问题是各个实验室的数据格式不同错误的。伯克利有一种格式,斯坦福有另一种格式,麻省理工学院有第三种格式。您想一起训练多个数据集吗?首先花费几个月的时间编写转换代码。 Open X-Embodiment定义了统一的数据格式,涵盖视觉观察、本体识别、动作序列和语言注释,因此业界有一个统一的标准非常重要。因为这是目前机器人领域最大的挑战,所以我们嘉宾的意见也是非常分歧的。一组人认为,大规模语言模型已经包含足够的物理常识,只需要用少量的机器人数据进行完善。与此同时,另一群人认为,必须通过机器人的真实数据来了解物理世界的细节,仅靠互联网视频是不够的。这里的门和技术可以深入研究。不同的任务和准确性要求需要不同的数据策略。因而矿石,在数据方面,未来我们会单独制作内容,深入机器人系列。 3.2 工具层的目标 仅有数据是不够的。您还需要工具将数据转换为可训练的模型。这就是乐机器人和创世纪的作用。 LeRobot 是一个开源项目,由特斯拉 Hugging Face 聘请的工程师 Remi Cadene 领导。 Kadene 此前曾在 Tesla 从事 Autopilot 和 Optimus 人形机器人项目。他利用这些经验加入了 Hugging Face,目标是“让训练机器人像训练语言模型一样简单”。乐机器人做了三件重要的事情。 1、为LeRobotDataset定义了统一的数据格式。 2.一键整合多种传统策略模型。您不需要阅读任何文档或更改任何代码,直接调用即可。 3、现在从数据收集、模型训练到机器人的实际部署,整个流程都是开放的。以前,这三个步骤可能会重新需要三套不同的工具链。乐机器人的GitHub拥有超过2万颗星,已成为培训开源机器人的标准之一。但 Hugging Face 的野心不仅仅限于软件。 2025年,它收购了法国的Pollen Robotics,并推出了Reachy 2,这是一款价值7万美元的开源人形机器人。该机器人应用于康奈尔大学、CMU.Es等各大研究机构。他们还推出了售价 250 美元的 Reachy Mini 桌面机器人。此前,该公司与The Robot Studio合作推出了SO-100机械臂。它的成本仅为 100 美元,任何人都可以 3D 打印它并在家自己制作。 Hugging Face 将“硬件、软件和社区”打包,创建一个完整的开源机器人生态系统。 Genesis于2024年12月发布,尝试优化模拟训练问题。它是一个由 CMU 卡内基梅隆大学主导、麻省理工学院、斯坦福大学、Nvidia 等 20 多个研究机构合作参与的开源项目。辛运行仅需几个小时,即可生成相当于多年实际训练的样本数据,从而显着减少训练时间和硬件成本。例如,Genesis 声称它可以在 RTX 4090 显卡上以每秒 4300 万帧的速度模拟 Franka 机械臂。这比实时快 430,000 倍。一小时的 Genesis 训练相当于超过 49 年的现实训练。这里最大的变化是,虽然以前只有大公司才有能力进行大规模模拟培训,但现在即使是研究生也可以使用消费类显卡在家进行培训。模拟工具领域本身也竞争激烈,NVIDIA 正在与 Google DeepMind 和 Disney Research.h 共同开发开源物理引擎 Newton,与 Genesis 直接竞争。但无论如何,奖牌的一部分应该颁给 Hugface,由 Lurobot 管理现实世界,以学术为导向的 Genesis 管理虚拟世界。两种工具的结合,将“训练机器人”的门槛从数百万美元降低到了数百美元。 3.3 生态为何能获胜?简而言之,模型、数据、工具三层就是开源领域的“组合拳”。无论从哪个层面来说,开源都不如闭源巨头。无论是人才密度还是计算能力都比不上谷歌。就数据量而言,它不如特斯拉。就其工具链的完整性而言,它不如NVIDIA。然而,三层键引起的化学反应释放出巨大的能量。研究人员可以使用 Open X-Embodiment 数据在 LeRobot 框架上训练 OpenVLA,使用 Genesis 进行模拟验证,然后在 100 美元的 SO-100 机械臂上实现。整个过程是开源、免费且可复制的。这里有一个重要的观察。也就是说,开源正在大规模语言模型领域迎头赶上。德尔斯。 OpenAI、Anthropic 和 Google 处于领先地位,一两代之后开源紧随其后。然而,在机器人领域,开源和闭源几乎同时起步。 OpenVLA 在 2024 年 6 月击败了 RT-2-X。这个时间差的原因很简单。机器人技术仍处于早期阶段,没有一家公司在数据或算法方面建立起压倒性的优势。这是一个罕见的“公平竞争”的开源框架。如果闭源公司错过了积累足够数据飞轮的时刻,那么开源公司可能很难迎头赶上。此外,开源和闭源之间的界限比您想象的要模糊得多。虽然 RT-2-X 是 Google 的“闭源”模型,但其部分训练数据来自开源 Open X-Embodiment 数据集。 Chelsea Finn 是 Octo 开源项目的主要作者、RT 系列闭源工作的倡导者以及 PI 的联合创始人。 NVIDIA 的 GR00TN1 介于开源和闭源之间。因此,这场比赛并不是两派之间的对决,而是谱系上多方之间的较量。毕竟,开源与闭源虽然表面上是技术路线之争,但本质上是生态之战。关于谁来定义机器人行业基础设施层的争论仍在继续。 Jan Liphardt OpenMind 创始人 互联网本身就是开源代码,Android 也是开源的。当然,有些公司希望控制从软件到硬件再到云服务的一切,但是,例如,一个非常美味的苹果。但我们也看到三星和谷歌等巨头乐于使用开源软件来构建自己的手机系统。他们选择使用开源软件的原因很简单。所有公司都必须决定将时间和金钱投入到哪里。 04 开源与未来算力、数据质量、工程差距与安全问题但当谈到生态时,我们必须面对现实。开源面临的挑战仍然巨大。首先是算力门槛。尽管存在像 Octo 这样的轻量级模型,但训练最好的开源模型仍然需要大量投资。 openVLA 使用 64 台 A100 运行了 15 天。尽管与特斯拉或谷歌的计算能力相比,这似乎很小,但对于普通研究人员来说,这仍然是一笔不小的成本。第二是数据的质量。开放的特斯拉数据可能不像开源那样多样化,但它更加一致。毕竟都是同一个系统收集的。三是工程差距。开源模型对于文章来说效果很好,但演示和生产之间存在巨大差距。闭源公司拥有完整的工程团队进行优化、测试和售后服务,而开源社区Ti则擅长创新和探索。然而,将模型细化为稳定可靠的com商业产品通常需要闭源公司来完成模型。第四是安全。如果有人可以训练机器人,我们如何防止它被用于危险目的?物理世界中的人工智能比虚拟世界中的大型语言模型具有更大的风险。聊天机器人说错话充其量是令人尴尬的,但对于实体机器人来说,做出错误的举动可能是有害的。 OpenMind 的 Jan Liphardt 提出了一个大胆的计划。 Jan Liphardt OpenMind 创始人 我们为以太坊区块链编写规则。这样做的原因是因为以太坊是不可变的,无法更改。随着机器变得越来越聪明,我们应该期望它们试图隐藏自己正在做的事情,试图改变历史,或者想要更多的控制权。在这种情况下,作为额外的安全措施,在公共场所记录规则并使其无法更改非常重要。利用区块链来限制机器人行为的想法是相当前沿的,并且在事实上,已经在业内引起了一些争议。但这至少表明开源社区正在认真对待安全问题。开源能走多远?自变量CTO王浩做出了进度预测。自变机器人CTO王浩表示:我们现在可以清楚地看到这个规模所取得的改进。所以,对我们来说,我们的道路、我们的目标变得更加清晰、更加独特。因此,我们预计一到两年内就能完全达到GPT-3的水平。 GPT-3级别意味着机器人从能够完成简单的指令转变为能够理解并灵活执行复杂的意图。这是一个里程碑。在LLM时代,我们正在见证OpenAI从“开放”走向封闭。我一直在做很多事情。一家名为“Open”的公司已经成为市值千亿美元的闭源商业帝国。在机器人时代,同样的历史可能会重演,也可能不会重演。因为机器人领域的一些东西是大语言模型时代所不具备的。它是一个足够强大的开源生态系统,可以开始使用。最后,OpenMind 创始人 Jan Liphardt 从父亲的角度解释了为什么他支持开源。这个答案很人性化:Jan Liphardt OpenMind 创始人 因为我是一名父亲,有两个孩子。如果你想象未来的世界会是什么样子,你不想有一天打开你的门,看到一个人形机器人站在门口说:“嗨,我是你的新机器人,你没有权限查看我正在运行的系统。”机器人等关键技术必须公开透明。我相信透明度本身会带来更大的安全性。我希望孩子们能够通过为他们周围的机器人添加功能来参与这个世界的建设,而不仅仅是购买一盒产品,打开它,打开它,然后说:“我建造了它,但这是我的秘密。”最终还是阿宝而是信任和安全。作为一家初创公司,我们也意识到社会对这种开放性和透明度的期望比我们最初的预期要强烈。这就是体现智能开源模型生态系统的现状。本文详细介绍了四个派别:学术派、巨头派、企业家包括中国企业、体智派,后面会单独提到。他们都出于不同目的、不同程度参与了开源生态系统的建设。可以肯定的是,这样的生态系统正在帮助我们进一步打破技术和创新的界限。注:部分图片来源于网络【本程序不构成投资建议】【视频播放渠道】全国:bilibili |腾讯|视频账号|雪瓜 |今日头条 |百家帐号 | 36克|微博 |虎秀海外:Youtube 联系方式:video@sv101.net 【主创团队】 制作人 |洪军 作者:陈茜|编辑:Vicky |陈谦华OST:子琴|陈茜 编辑|橙色动画|踢脚操作|孙泽平子勤
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由提供信息存储服务的社交媒体平台网易号用户上传并发布。