ArXiv: 2602.00919
Green-VLA: Staged Vision-Language-Action Model
为通用型机器人打造的五阶段进化框架。从多模态理解到具身动作,Green-VLA 在 Green 人形机器人上实现了卓越的零样本泛化与长时程任务对齐。
1. Research Motivation & Gap
当前的机器人学习面临着 "Generalization vs. Specialization" 的两难困境。虽然 VLM 在语义层面展现了强大的泛化能力,但在真实的物理操作中,不同形态(Embodiments)的动力学差异巨大。
- ✓ Data Heterogeneity: 不同机器人采集的轨迹频率、观察视角不统一。
- ✓ Action Space Mismatch: 从单一机械臂到双臂人形机器人,自由度的急剧增加。
学术必要性
"我们需要一种能够像人类一样分阶段学习的模型:先理解世界(VLMs),再学习感知(Grounding),随后掌握通用技能(Pretraining),最后精通特定工具(RL Alignment)。"
2. Mathematical Modeling & Algorithms
符号定义表
| 符号 | 含义 |
|---|---|
| $ \mathcal{O}_t $ | $ t $ 时刻的多模态观察值 |
| $ \mathcal{A}_t $ | 动作标记 (Action Tokens) |
| $ \mathcal{P}_e $ | 轨迹进度预测因子 |
| $ \phi_e $ | 具身感知的 Embedding |
理论推导:动作生成概率
Green-VLA 将具身动作预测建模为基于进度预测 $ \mathcal{P}_e $ 的联合条件分布,旨在解决长时程任务中的因果混淆问题。其核心损失函数定义为:
其中 $ \lambda $ 是控制进度辅助任务权重的超参数。
def green_vla_step(obs, task_desc, history):
# 1. Encode multimodal observation and text
latent_state = vlm_encoder(obs, task_desc)
# 2. Episode progress prediction (Aux Task)
progress_val = progress_head(latent_state)
# 3. Action tokenization & generation
action_tokens = action_decoder(latent_state, progress_val, history)
# 4. Out-of-distribution (OOD) check
is_safe = ood_detector(latent_state)
return action_tokens if is_safe else emergency_stop()
3. Reproducible Methodology
HW 硬件与数据细节
采用 Green 人形机器人作为主测平台,适配包含 32 个关节的 1.1m 高度仿人机构。
ST 五阶段训练课程 (Five Stages)
在大规模视觉文本数据上预训练,引入空间定位(Grounding)能力。
多机体联合训练,提取通用的动作词元(Action Affordance)。
特定机体精调,并引入 RL 进行长时程任务的闭环策略对齐。
4. Results & Insights
主流基准测试对比 (Success Rate %)
| Method | BridgeData V2 | RT-2 (SOTA) | Green-VLA (Ours) |
|---|---|---|---|
| Bimanual Pick & Place | 62.1 | 74.5 | 88.2 ↑ |
| Long-horizon Stacking | 45.8 | 58.9 | 76.4 ↑ |
| Zero-shot Generalization | 31.2 | 42.6 | 55.9 ↑ |
数据解读:进度预测的作用
实验观察到,引入 $\mathcal{P}_e$ 后,模型在遇到相似物体时的“反复动作”概率降低了 42%。这证明了任务进度显式建模能显著减少马尔可夫决策中的循环冲突。
物理直觉:共享示能空间
R0 预训练成功让模型学习到了抽象的 "Grasp" 和 "Push" 示能,这使得人形机器人可以复用移动底座机器人的操作先验。
5. Critical Review (AC Perspective)
Pros: 显著优势
- • 系统性创新:分阶段学习路径解决了大模型知识到机器人动作的“跨度过大”问题。
- • 真实部署验证:在复杂的人形机器人双臂操作上证明了极高的稳定性。
- • 数据治理严密:DATAQA 的引入确保了微调数据的长时程一致性。
Cons: 局限性
- • 计算开销:多阶段的流水线虽然效果好,但推理延迟在低算力边缘端仍具挑战。
- • 泛化边界:对于非刚性、具有极高流体特性的物体,零样本表现仍有待加强。
Future Directions
未来的研究应更关注 World Model 的集成,使机器人具备预测物体因物理交互产生形变的能力,以及进一步降低推理侧的 Action Token 序列长度。
One More Thing
研究团队发现了一个有趣的 "Embodiment Synergy"(机体协同) 效应:虽然不同机器人的动作幅度不同,但它们在注意力图(Attention Map)中对关键特征的关注具有高度一致性。这意味着 VLA 的“大脑”部分是可以完全解耦并跨平台共享的,这为未来构建“通用机器人操作系统”奠定了坚实基础。
Green Humanoid Fleet
Unified Action Interface v2.0