首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器之心

    VLA-OS:NUS邵林团队探究机器人VLA做任务推理的秘密

    图 1 VLA-OS 整体概览 一、疑云密布:VLA 模型在进行任务规划时到底该怎么做? 图 2 展示了一些端到端的 VLA 代表性工作。 图 2 一些端到端的 VLA 模型(ActionOnly-VLA) 然而,目前可用于训练 VLA 的数据集相比起 LLM 和 VLM 来说还非常少。 图 7 VLA-OS 可组合模块家族 然后,我们针对三个 VLA 的任务规划范式,设计了可组合的 VLA-OS 模型家族,首次实现三大范式的公平对比。 针对三种 VLA 范式(ActionOnly-VLA、Integrated-VLA、Hierarchical-VLA),我们组合使用 VLA-OS 的标准模块,构建了对应的 VLA-OS 模型实现,如图所示 发现 13:相比不含任务规划的范式(ActionOnly-VLA),包含任务规划的 VLA 范式(Integrated-VLA 与 Hierarchical-VLA)在前向迁移能力上更强,但遗忘速度也更快

    37810编辑于 2025-08-06
  • 来自专栏休辞醉倒

    浅析变长数组(VLA)和动态数组

    1;i>=0;i–) printf(” %d”,a[i]); printf(“\n”); return 0; } 上面程序中的数组a是一个变长数组(variable-length array,简称VLA

    2.3K21发布于 2019-07-23
  • 来自专栏机器之心

    VLA 推理新范式!一致性模型 CEED-VLA 实现四倍加速!

    OpenHelix以及LLaVA-VLA的研究团队。 尽管相关技术取得了显著进展,但在实际部署中,尤其是在高频率和精细操作等任务中,VLA 模型仍受到推理速度瓶颈的严重制约。 /CEED-VLA/ 论文链接:  https://arxiv.org/pdf/2506.13725 代码链接:  https://github.com/OpenHelix-Team/CEED-VLA 图 1:不同解码方法加速效果对比 Method 图 2:CEED-VLA 模型架构示意图 我们提出的框架首先通过预训练的 VLA 模型(例如 LLaVA-VLA和OpenVLA)进行Jacobi Decoding 下图展示了 CEED-VLA 模型的实验效果。得益于推理频率的提高,机械臂动作更加顺畅,成功完成了灵巧操作任务。 图 11:CEED-VLA 在真实世界中的实验结果。  

    37610编辑于 2025-07-14
  • 来自专栏一点人工一点智能

    CogACT:一种新的VLA模型架构

    论文方法 1.1 方法描述 该研究旨在开发一种视觉语言模型(VLA),使不同的机器人能够根据视觉观察和语言指令执行各种任务。为此,他们将模型分为三个部分:视觉模块、语言模块和动作模块。 方法创新点 该论文的主要贡献在于提出了一种全新的VLA模型架构——CogACT,通过将认知信息提取出来并作为条件引导动作预测过程,从而解决了现有VLAs在处理连续、多模态、时间相关且需要高精度的动作信号时存在的问题

    46610编辑于 2025-01-20
  • 来自专栏新智元

    VLA爆发!从美国RT-2到中国FiS-VLA,机器人「即知即行」的终极进化

    从美国RT-2的开创性突破,到中国最新FiS-VLA「快慢双系统」,VLA正以光速硬核进化。 2025年,具身智能可真是太火了。 近日,国内具身智能代表性创企——智平方,联合头部高校发布了一款全新的VLA模型——Fast-in-Slow(FiS-VLA)。 放眼全球,VLA的热潮不止于此。 VLA技术加速机器人从实验室走向物理世界,并催生出了各具特色的技术分支。 这不仅印证了VLA的巨大潜力,也预示着,它正在重塑智能机器人与人类交互的未来。 或许你一定好奇,VLA为何成为了具身智能的「新范式」? VLA超进化 谷歌RT-2成关键节点 若想破除这一疑问,前提是必须理解VLA模型的重要性。 短短三年的时间,VLA技术完成了从实验室走向工业落地的华丽蜕变。 随着GROOT N1、Helix、FiS-VLA等模型的部署,VLA将在人形机器人、智能制造等领域大放异彩。

    81810编辑于 2025-07-09
  • 来自专栏星河细雨

    自动驾驶VLA的过去、现在和未来

    VLA模型的理论框架 形式化定义与核心组件 从数学角度来看,VLA模型可以被形式化为一个从多模态输入空间到动作空间的映射函数。 VLA模型主干网络的设计哲学 VLM主干网络是VLA系统的"大脑",它承担着将异构输入融合为统一表示、理解场景语义、进行因果推理等核心任务。 端到端VLA架构深度解析 端到端VLA框架代表了将感知、推理与规划统一于单一模型的技术路线。 同时,VLA相关研究的快速推进和演化,也为VLA的量产落地提供了更清晰的技术实现路径。 亟待解决的技术挑战 实时性约束是VLA模型面临的首要工程挑战。 结语 VLA模型代表了自动驾驶研究的一次范式跃迁。从最早的ALVINN到今天的VLA,自动驾驶系统经历了从简单反射到复杂推理的演进。

    25910编辑于 2025-12-29
  • 来自专栏多模态模型系列

    具身智能中VLA(视觉-语言-动作)技术论文解读

    正好最近在看VLA(Vision-Language-Action)模型相关技术,VLA的核心目标就是解决感知、语言和行动之间的断层问题。本文主要和大家讨论下VLA相关技术~1. 到这儿终于引入我们的主题VLA。5. RT-2介绍了如何通过将 VLM 预训练与机器人数据相结合来训练VLA模型,验证了再机器人领域能够利用VLM模型的能力来提升VLA模型的泛化能力。 模型,支持有效微调,推动机器人技术发RT-2提出了VLA模型,openVLA也同样具有里程碑意义,因为他开源了通用机器人VLA模型和训练代码。 2025年来看,VLA将长链式的端到端VLA系统拆分为视觉语言理解(VLM)与动作执行两个子模块,也正在成为一个重要探索方向。

    4.2K35编辑于 2025-04-29
  • 来自专栏一点人工一点智能

    NaVILA:用于足式机器人导航的VLA模型

    该模型采用了两层框架,将视觉、语言和行动模型(VLA)与运动技能相结合。通过预先生成具有空间信息的语言中间动作(例如,“向前移动75厘米”),然后将其作为输入传递给视觉运动强化学习策略以执行任务。

    73510编辑于 2024-12-27
  • 来自专栏遊俠扎彪

    C语言C99标准中的变长数组(VLA)

    该文介绍了在C语言C99标准中的变长数组(VLA)的相关知识,以及其在编译器中的实现和用法。具体包括变长数组在C语言中的定义和声明方式,以及其在编译器中的实现和用法。同时,还介绍了在GNU C下变长数组的使用和注意事项。

    4.2K90发布于 2018-01-01
  • 来自专栏机器之心

    全新模型RoboVLMs解锁VLA无限可能,真实机器人实验交出满分答卷

    这篇文章就是要带你一起看看,我们是如何用 RoboVLMs 解锁 VLA 的无限可能! 四大灵魂拷问:RoboVLMs 是怎么炼成的? 我们围绕四个关键问题,对 VLA 的设计展开了深度探索,下面就带你看看答案! 1. 为什么要用 VLA 模型? 简单说,通过实验,我们发现设计合理的 VLA 不仅能轻松搞定常见的操作任务,还能在陌生场景中稳稳发挥。 怎么设计一个靠谱的 VLA 架构? 这里面讲究可不少!比如: 动作空间:用连续动作空间比离散的好很多。 历史信息:加多步历史信息后,模型的操作更稳准狠。 这些结论为未来 VLA 模型的训练策略指明了方向。

    36010编辑于 2025-02-03
  • 来自专栏机器之心

    全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

    一、为什么VLA+RL很重要 图注:VLA模型依赖研读微调 在具身智能(Embodied AI)领域,科学家们正在尝试将强大的视觉-语言模型(VLM)应用到机器人的底层控制中,这就是所谓的VLA模型。 三、星动纪元 iRe-VLA 最先突破 VLA 强化学习困境,也是 π*0.6 的引用来源 对于VLA的强化学习困境,行业内其实有三种类型的解决方案: 第一种:外挂式干预:一些尝试不敢轻易触碰庞大的 VLA 这种方法虽然安全,但 VLA没有真正发生质变。 第二种:暴力美学:以 VLAC 为代表的工作尝试直接用 PPO 等算法全量微调 VLA。 我们来看下 iRe-VLA。 图注:该架构的优点 国内的星动纪元的iRe-VLA 的基础上,海外的PI π*0.6,都为我们揭示出了VLA在线强化学习技术的发展前景。

    33510编辑于 2025-12-18
  • 来自专栏机器之心

    效率提升25%,灵巧操作数采困境被「臂-手共享自主框架」解决

    Data collection and training pipeline for DexGrasp-VLA policy and arm-hand VLA policies.[1] 触觉增强的 DexGrasp-VLA 机械臂系统高效地采集高质量的演示数据,以训练出具备通用操作能力的 VLA 策略。 核心策略: DexGrasp-VLA,打造共享自主框架的基石 DexGrasp-VLA 是一个专为灵巧手设计的自主抓取策略,是本文共享自主框架的基石。 Tactile-based DexGrasp-VLA for hand control [1] 在杂乱桌面场景中使用 DexGrasp-VLA 进行清桌操作。 2. Autonomous Hand VLA Policy for Efficient Data Collection.

    19410编辑于 2025-12-18
  • 来自专栏一点人工一点智能

    清华团队新模型UP-VLA实现视觉-语言-动作三重突破

    研究背景 引言构建了UP-VLA研究的理论基础和问题背景,系统性地阐述了当前VLA模型研究的发展现状与核心挑战。文章开篇即指出,构建能够在开放环境中解决多任务的VLA模型已成为机器人研究的核心方向。 UP-VLA的创新点在于重新思考了VLA模型的预训练方法,突破了传统视觉语言预训练仅关注高层次语义信息的局限。 作者特别对比了与3D-VLA工作的异同——虽然都探索了多模态理解与生成的协同训练,但3D-VLA主要关注3D信息的引入并使用独立的扩散模型进行生成,而UP-VLA则采用统一模型处理多模态输入,重点解决VLA 对于未见过的物体抓取任务,UP-VLA-RT-2优于UP-VLA-phi-w/o-mmu,说明多模态理解有助于语义泛化能力。UP-VLA表现最佳,证明其能有效对齐多模态理解与物体和动作。 在需要精确操作的任务(如布线、抓取小物体)中,UP-VLA-phi-w/o-mmu优于UP-VLA-RT-2,而UP-VLA表现最优,表明未来视觉预测的整合确实增强了VLA对物理空间和细节的理解能力。

    39510编辑于 2025-08-11
  • 来自专栏一点人工一点智能

    MoManipVLA——面向通用移动操作的视觉-语言-动作模型迁移

    另一方面,近年来发展的视觉-语言-动作(VLA)模型在各种操纵任务中展现了出色的泛化性能。当前最前沿的VLA模型可以直接根据RGB图像输出7自由度的末端执行器动作,无需依赖预测的对象类别和姿态。 OpenVLA探索了视觉编码器对VLA模型性能的影响,通过组合不同的基础模型组件实现了满意的表现。 这种双层优化策略不仅提高了轨迹生成的效率,还使得原本专为固定基座设计的VLA模型能够适应移动操纵的需求。 为了微调现成的VLA模型以弥合跨实体差距,研究人员收集了基于OVMM提供的启发式基线的移动操纵专家轨迹。 特别是在拾取成功率方面,得益于预训练VLA模型的强大泛化能力,MoManipVLA比SOTA方法高出12.4%,这证明了所提出方法能有效迁移预训练VLA模型策略至移动操纵任务中。

    46510编辑于 2025-03-27
  • 来自专栏防止网络攻击

    C++构造函数初始化列表

    例如 VS/VC 不支持变长数组(数组长度不能是变量),我们自己定义了一个 VLA 类,用于模拟变长数组,请看下面的代码: class VLA{ private: const int m_len; int *m_arr; public: VLA(int len); }; //必须使用初始化列表来初始化 m_len VLA::VLA(int len): m_len(len){ m_arr = new int[len]; } VLA 类包含了两个成员变量,m_len 和 m_arr 指针,需要注意的是 m_len 加了 const 修饰,只能使用初始化列表的方式赋值,如果写作下面的形式是错误的: class VLA{ private: const int m_len; int *m_arr; public: VLA(int len); }; VLA::VLA(int len){ m_len =

    62240编辑于 2023-10-14
  • 来自专栏机器之心

    把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源

    方法部分 为了解决这一问题,我们提出了 GRAPE,一种即插即用的算法,通过偏好对齐提升机器人策略的泛化能力,并支持将 VLA 模型对齐到任意设定的目标。 GRAPE 的框架如下图所示: 图 1:GRAPE 的框架 GRAPE 带来了以下三大优势,显著增强了 VLA 模型的泛化性: GRAPE 在轨迹层面通过强化学习(RL)目标对 VLA 进行对齐,赋予模型全局决策能力 GRAPE 通过与任意目标对齐的偏好对轨迹进行排序,进而使得 VLA 模型能被对齐到设定的目标上。 以下是这三个部分的详细介绍: Trajectory-wise Preference Optimization(轨迹级偏好优化): GRAPE 将逐步训练的 VLA 模型扩展到轨迹级别,并通过强化学习(RL 这种方法逐步提升了 VLA 策略的泛化能力,并使其与任意目标更好地对齐。

    37910编辑于 2025-02-15
  • 来自专栏机器之心

    北大与港中文发布Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作

    Fast-in-slow VLA (如何在慢系统中分化出执行模块) FiS-VLA 提出一种创新结构,将 VLM 的末端几层 Transformer 模块直接重构为系统 1 执行模块,嵌入原有系统 2 借鉴 “动作块化” 的方法,FiS-VLA 认识到在时间步 t 的输入可以为未来若干步的动作生成提供指导,因此 FiS-VLA 将系统 2 的中间层输出作为一个潜在的条件信号,为接下来的 H 步系统 1 在训练阶段,FiS-VLA 采用异步采样的方式控制系统 2 的运行频率,使得系统 1 能够保持动作生成过程的时间一致性。 另外,FiS-VLA 采用异构模态输入设计。 由于系统 1 与系统 2 在职责上存在根本差异,FiS-VLA 为其设计了异构的输入模态。 3.FiS-VLA 双系统协同训练:系统 1 以扩散建模为核心,注入带噪动作作为训练变量,实现连续性动作生成;系统 2 则采用自回归预测保留推理能力,这两个训练目标联合优化 FiS-VLA

    30100编辑于 2025-07-12
  • 来自专栏点云PCL

    强化学习赋能视觉-语言-动作模型:进展、机制与前景综述

    图1.图片来源于网络 VLA模型的瓶颈与RL的赋能契机 VLA模型通过预训练(大规模视觉语言数据)与监督微调(机器人演示数据)获得多模态理解与动作生成能力。 RL优化VLA模型的核心技术路径 2025年的研究聚焦于高效、安全、可扩展的RL-VLA融合范式,涌现出以下关键方向: 1. 图2 RIPT-VLA框架 2. 世界模型与云端-车端协同 小鹏汽车“世界基座模型”:研发720B参数VLA基座模型,验证VLA的Scaling Law效应。 计算成本:训练超大VLA基座模型及在线RL对算力要求极高。方向:更高效RL算法、分布式训练优化。 总结 2025年,强化学习已成为释放VLA模型潜力的关键引擎。

    90610编辑于 2025-08-08
  • 来自专栏机器之心

    解决特斯拉「监督稀疏」难题,DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law

    这一问题直指当前 VLA 模型的 “七寸”:其输入是高维、稠密的视觉信息流,但其监督信号却往往是低维、稀疏的驾驶动作(如路径点)。 该研究提出,世界模型(World Model)是解锁 VLA 数据规模定律(Data Scaling Law)的关键钥匙。 传统 VLA(左)仅依赖稀疏的动作监督。DriveVLA-W0(右)则额外引入了稠密的视觉预测任务,迫使模型理解环境。 这一设计为 VLA 模型提供了远比 “动作” 更丰富和稠密的学习信号,从根本上缓解了 “监督赤字” 问题。 该设计在不牺牲性能的前提下,显著降低了模型的推理延迟,仅为基线 VLA 的 63.1% ,为 VLA 模型的实时部署提供了可能。

    15510编辑于 2025-11-26
  • 来自专栏机器之心

    刚刚,智元提出SOP,让VLA模型在真实世界实现可扩展的在线进化

    SOP:让机器人实现在真实世界中的分布式持续学习 在过去几年里,基于互联网海量数据预训练的 VLA(视觉 - 语言 - 动作)模型,虽然赋予了机器人一定的通用泛化能力,但始终面临一个难以逾越的鸿沟:「懂 它将 VLA 的后训练从「单机单打独斗」转变为「在线、集群、并行」的集团军作战。形象地说,SOP 构建了一个「多机平行现实 → 云端集中学习 → 模型即时回流」的超级闭环。 分布式机器人队伍:构建「平行现实」 在 SOP 架构下,不再是一台机器人在苦苦探索,而是多台机器人组成集群,共享同一个 VLA 策略。 破解灾难性遗忘:泛化与精度的共存 传统的单机在线训练往往面临一个两难:为了精通某项任务(如叠衣服),模型很容易退化成只懂这一件事的专家,丧失了通用的 VLA 能力。 因为它是在更广阔的分布中同时进行多任务学习,而非按顺序一个个学,从而确保了 VLA 的通用性不会因针对某一任务的性能提升而受损。

    15210编辑于 2026-01-12
领券