ArXiv: 2602.00919

Green-VLA: Staged Vision-Language-Action Model

为通用型机器人打造的五阶段进化框架。从多模态理解到具身动作,Green-VLA 在 Green 人形机器人上实现了卓越的零样本泛化与长时程任务对齐。

1. Research Motivation & Gap

当前的机器人学习面临着 "Generalization vs. Specialization" 的两难困境。虽然 VLM 在语义层面展现了强大的泛化能力,但在真实的物理操作中,不同形态(Embodiments)的动力学差异巨大。

  • Data Heterogeneity: 不同机器人采集的轨迹频率、观察视角不统一。
  • Action Space Mismatch: 从单一机械臂到双臂人形机器人,自由度的急剧增加。

学术必要性

"我们需要一种能够像人类一样分阶段学习的模型:先理解世界(VLMs),再学习感知(Grounding),随后掌握通用技能(Pretraining),最后精通特定工具(RL Alignment)。"

2. Mathematical Modeling & Algorithms

符号定义表

符号 含义
$ \mathcal{O}_t $ $ t $ 时刻的多模态观察值
$ \mathcal{A}_t $ 动作标记 (Action Tokens)
$ \mathcal{P}_e $ 轨迹进度预测因子
$ \phi_e $ 具身感知的 Embedding

理论推导:动作生成概率

Green-VLA 将具身动作预测建模为基于进度预测 $ \mathcal{P}_e $ 的联合条件分布,旨在解决长时程任务中的因果混淆问题。其核心损失函数定义为:

$$ \mathcal{L}_{VLA} = \mathbb{E}_{(\mathcal{O}, \mathcal{A}) \sim \mathcal{D}} \left[ -\log P(\mathcal{A}_t | \mathcal{O}_{1:t}, \mathcal{P}_e, \text{Task}) + \lambda \cdot \|\mathcal{P}_e - \hat{\mathcal{P}}_e\|^2 \right] $$

其中 $ \lambda $ 是控制进度辅助任务权重的超参数。

ALGORITHM: PROGRESS-AWARE ACTION INFERENCE
def green_vla_step(obs, task_desc, history):
    # 1. Encode multimodal observation and text
    latent_state = vlm_encoder(obs, task_desc)
    
    # 2. Episode progress prediction (Aux Task)
    progress_val = progress_head(latent_state)
    
    # 3. Action tokenization & generation
    action_tokens = action_decoder(latent_state, progress_val, history)
    
    # 4. Out-of-distribution (OOD) check
    is_safe = ood_detector(latent_state)
    
    return action_tokens if is_safe else emergency_stop()

3. Reproducible Methodology

HW 硬件与数据细节

采用 Green 人形机器人作为主测平台,适配包含 32 个关节的 1.1m 高度仿人机构。

Compute 8x NVIDIA H100 (Fine-tuning)
Data Scale 3,000 Hours of Multimodal Demos
Action Freq 25 Hz (Closed-loop)

ST 五阶段训练课程 (Five Stages)

L0 & L1: FOUNDATION

在大规模视觉文本数据上预训练,引入空间定位(Grounding)能力。

R0: PRE-TRAINING

多机体联合训练,提取通用的动作词元(Action Affordance)。

R1 & R2: ADAPTATION

特定机体精调,并引入 RL 进行长时程任务的闭环策略对齐。

4. Results & Insights

主流基准测试对比 (Success Rate %)

Method BridgeData V2 RT-2 (SOTA) Green-VLA (Ours)
Bimanual Pick & Place 62.1 74.5 88.2
Long-horizon Stacking 45.8 58.9 76.4
Zero-shot Generalization 31.2 42.6 55.9
数据解读:进度预测的作用

实验观察到,引入 $\mathcal{P}_e$ 后,模型在遇到相似物体时的“反复动作”概率降低了 42%。这证明了任务进度显式建模能显著减少马尔可夫决策中的循环冲突。

物理直觉:共享示能空间

R0 预训练成功让模型学习到了抽象的 "Grasp" 和 "Push" 示能,这使得人形机器人可以复用移动底座机器人的操作先验。

5. Critical Review (AC Perspective)

Pros: 显著优势

  • 系统性创新:分阶段学习路径解决了大模型知识到机器人动作的“跨度过大”问题。
  • 真实部署验证:在复杂的人形机器人双臂操作上证明了极高的稳定性。
  • 数据治理严密:DATAQA 的引入确保了微调数据的长时程一致性。

Cons: 局限性

  • 计算开销:多阶段的流水线虽然效果好,但推理延迟在低算力边缘端仍具挑战。
  • 泛化边界:对于非刚性、具有极高流体特性的物体,零样本表现仍有待加强。

Future Directions

未来的研究应更关注 World Model 的集成,使机器人具备预测物体因物理交互产生形变的能力,以及进一步降低推理侧的 Action Token 序列长度。

INSIGHT EXTRACTION

One More Thing

研究团队发现了一个有趣的 "Embodiment Synergy"(机体协同) 效应:虽然不同机器人的动作幅度不同,但它们在注意力图(Attention Map)中对关键特征的关注具有高度一致性。这意味着 VLA 的“大脑”部分是可以完全解耦并跨平台共享的,这为未来构建“通用机器人操作系统”奠定了坚实基础。

G

Green Humanoid Fleet

Unified Action Interface v2.0