gg
当前位置:首页> 消费 > 正文

星海图:具身智能VLA模型

发布时间:2025-03-27 04:29来源:盖世汽车阅读量:17514   

过去两年,机器人智能领域取得了显著成就。斯坦福大学成功实现了桌面级别的机器人操作,涵盖双臂系鞋带、操作透明物体等精细动作。通过模仿学习技术,机器人已能执行家庭日常操作,并在医疗领域完成精细的缝线作业。

2025年3月13日,在第三届具身智能机器人产业发展论坛上,星海图首席科学家赵行提到,高质量的真实数据与模仿学习的结合,被视为推动通用机器人智能发展的关键路径。在数据金字塔结构中,高质量的真实数据位于顶端,数量有限但质量上乘。相比之下,仿真数据和互联网数据分别位于中间和底部,尽管易于获取,但与真实世界场景存在差距。因此,在推动机器人智能发展的过程中,有效获取和利用这些不同层级的数据至关重要。

星海图技术通过模仿、学习并利用高质量数据,已在机器人本体上实现了多项复杂且有趣的任务,例如自动清理桌面垃圾、精确调配果汁等。全球多家机构,包括斯坦福大学的一个课题组已采购星海图的机器人,用于执行一系列家务任务,如衣物整理、货架摆放、家庭清洁等。

星海图首席科学家

以下为演讲内容整理:

星海图是一家集本体制造、智能研发以及解决方案提供于一体的全栈具身智能公司。在星海图的发展进程中,我们经常被问到三个问题。一是数据问题,在数据运用方面,究竟该采用真实数据、仿真数据,还是互联网数据?二是算法问题,在算法开发上,应选择开发模块化算法、端到端算法,还是大模型算法?三是我们作为一家创业型公司如何获取数据,以及如何提升机器学习或模型学习的算法效率,从而实现成本可控?

这三个问题的答案就蕴含在星海图所开展的两项主要工作中。首先探讨第一个问题,即应采用何种具身智能数据。在过去两年间,机器人具身智能领域取得了重大技术突破,例如斯坦福大学的Aloha系统能够使桌面级机器人双臂完成精细动作。在其他demo中,还出现了诸如为机器人设定戴隐形眼镜、操作透明物体等颇具趣味的任务。有些机器人已能够完成一些通用的家庭任务,并实现模仿学习与动作学习。

图源:演讲嘉宾素材

约翰霍普金斯大学与斯坦福大学的团队进一步提出,运用模仿学习可使机器人在医疗领域完成缝线等精细操作。从这一系列技术进展中可以看出,模仿学习与高质量真实数据相结合,是通往通用具身智能的一条重要路径,甚至是当前业内认可度与技术收敛度均较高的一条技术路线。

具身智能涉及诸多数据。首先是高质量真机采集的数据,这类数据处于数据金字塔的顶端,数量稀少,质量最高,也是业界最为认可的数据类型。在数据金字塔的中部是仿真数据,其优势在于能够借助计算机计算来模拟物理世界的时间进程,从而实现更高效的数据生成,这类数据与真实世界之间存在着显著差距。数据金字塔的底层是互联网数据,互联网数据获取极为便捷,甚至无需复杂计算,仅通过互联网搜索即可收集。但其缺点是数据质量良莠不齐,更为关键的是,此类数据通常未记录动作相关信息。

在这样一个数据金字塔体系中,最为理想的是获取金字塔顶端的高质量数据。星海图运用模仿学习方法,结合高质量数据,在我们自己的机器人本体上做了许多有意思的任务,比如桌面清扫垃圾,在这个任务里,我们把任意垃圾放在桌面的任意位置,机器人会多次进行清扫,如果第一次不成功会再次进行尝试,直到完成任务。另外还有冲果汁的任务,机器人会抓取杯子、摇果汁粉,进行精细的果汁粉数量倾倒,然后接取适量的水,最后完成果汁冲泡。

全世界有许多研究团队都采购了星海图的机器人,比如斯坦福大学的李飞飞课题组,使用星海图的机器人完成一系列的家务任务,包括整理衣物、货架放置、家庭的清洁等,这些任务都是使用端到端模型以及高质量的数据采集实现的。

我们相信,具身智能的下一步是需要构建基础模型,第一个原因是是具身智能机器人和自动驾驶的任务不一样,它需要用一个模型。我们希望具身智能机器人能够完成各种各样的任务,比如家庭作业、物流分拣、商业作业等。如何把在一个环境中的各种各样的任务集成在一个模型中,使用统一的架构是未来一大方向。在语言模型领域,我们能够通过GPT完成各种任务;视频生成领域,我们希望通过一个文声视频的模型,能够生成各种各样的视频。在具身智能领域,我们相信也会有这样一个能够完成多种任务的模型范式出现。

第二个原因是我们希望模型的能力能够随着数据质量、数量的增长持续提升。在人工智能领域,尤其是大语言模型范畴内,模型的规模、所投入的计算量以及使用的数据量,均能持续推动模型性能提升。模型性能的优化不再单纯依赖工程师手动调参,或对具体模型架构设计进行修改,这一规律与产业发展趋势高度契合。

第三个原因在于我们期望具身基础模型能够实现广泛的泛化能力。具身智能机器人与传统机器人的差异在于,我们期望所构建的模型,并非仅能在工厂的某一道工序中运行,而是在面对全新环境、全新物体时,均能展现出泛化能力。这种泛化能力涵盖了物体类内泛化、物体类间泛化、物体组合泛化以及跨任务泛化等多个方面。

星海图的具身基础模型分为两个阶段,当前正在开发的是第一阶段,即基于模仿学习的VOA全身智能模型,采用的范式类似于大语言模型的预训练与后训练方式。在预训练阶段,运用统一的EOA模型架构,借助海量真机数据,并以自有RSR数据作为辅助进行预训练。进入后训练阶段,针对垂直领域特定任务,仅需采集少量真机数据用于后训练,从而大幅降低单任务的编辑数据成本。

在第二阶段,我们将通过模仿学习与强化学习的联合优化,实现全身智能以及全自由度的联合控制,以完成更为复杂的任务,并在具体任务中实现近乎零样本的泛化。除模型研发外,星海图还关注空间智能的发展。具身智能与传统视觉AI存在显著差异,由于机器人在物理世界中作业,因此需充分理解三维空间与时间的规律。基于此,星海图推出了业界首个具身智能的Real to Seem to Real引擎,即RSR引擎。

RSR引擎基于纯视觉方案,对真实物理世界进行数字孪生重建。在数据采集方面,仅采用消费级采集设备,如手机、相机等,其采集成本仅为专业采集设备的1% 。

下图所示是我们使用手机在清华大学校园内拍摄后进行三维重建所得。在Real to Seem to Real中的Real to Seem环节,以纯视觉作为输入,运用基于Gaussian Splatting的算法开展三维重建工作。完成重建后,不仅能够实现全新视角的渲染、三维几何结构的重构,更进一步基于三维空间的一致性,达成了三维层面的语义分割与实例分割。

图源:演讲嘉宾素材

在seem to real阶段,我们能够对场景予以重构,创建基于现实场景的全新场景。基于这些新生成的数据,用于训练机器人的操作模型与导航模型,以此实现机器人的高效学习并提升其性能表现。

星海图的空间智能引擎RSR同样分为两个阶段。第一阶段运用基于Gaussian Splatting技术的视觉孪生,对机器人作业场景进行重建,可实现万平米规模且达到厘米级精度的场景还原。与此同时,构建规模达10万级别的物体库与场景库,有力提升具身感知与导航的操作能力。在RSR的第二阶段,将采用泛化的三维视觉世界模型,实现对开放场景的重建,对动态物体、柔性物体进行建模,并借助众包方式构建物体库与场景库,最终达成泛化的场景理解与空间理解能力,显著提高EFM的数据利用效率。

空间智能与具身基础模型是我们在具身智能研发进程中最为关键的两大工作内容。具身智能基础模型作为机器人的在线推理模型,通过构建数据闭环来提升模型能力;而具身智能引擎RSR则是部署于云端的离线数据引擎,它基于机器人在作业场景中采集的海量数据,开展高质量的三维重建、物体分割、场景重建、场景解耦及场景重构工作,进而助力机器人实现更高数据效率的泛化。

关于真实世界中高质量数据获取成本高昂的问题,答案就蕴含于我们的空间智能引擎之中。通过数字孪生场景的重构或数据增广,能够大幅提高真实数据的采集效率。

声明:免责声明:此文内容为本网站转载企业宣传资讯,仅代表作者个人观点,与本网无关。仅供读者参考,并请自行核实相关内容。

热门阅读
  • TrendForce集邦:AI服务器需求刺激,HBM供应商SK海力士20
    TrendForce集邦:AI服务器需求刺激,HB

    ,AI服务器出货动能强劲带动HBM需求提升,据TrendForce集邦咨询研究显示,2022年三大原厂HBM市占率分别为SK海力士50%、三星(Samsung)约40%、美光(Micron)约10%。...

    2023-04-19 09:55
  • Netflix第一季度营收81.62亿美元同比增长3.7%,净利润同比下
    Netflix第一季度营收81.62亿美元同比增长

    北京时间4月19日早间消息,美国视频流媒体服务提供商Netflix今日公布了该公司的2023财年第一季度财报。报告显示,Netflix第一季度营收为81.62亿美元,与上年同期的78.68亿美元相比增...

    2023-04-19 08:56