Green-VLA: Staged Vision-Language-Action Model

1. Research Motivation & Gap

当前的机器人学习面临着 "Generalization vs. Specialization" 的两难困境。虽然 VLM 在语义层面展现了强大的泛化能力，但在真实的物理操作中，不同形态（Embodiments）的动力学差异巨大。

✓ Data Heterogeneity: 不同机器人采集的轨迹频率、观察视角不统一。
✓ Action Space Mismatch: 从单一机械臂到双臂人形机器人，自由度的急剧增加。

学术必要性

"我们需要一种能够像人类一样分阶段学习的模型：先理解世界（VLMs），再学习感知（Grounding），随后掌握通用技能（Pretraining），最后精通特定工具（RL Alignment）。"

2. Mathematical Modeling & Algorithms

符号定义表

符号	含义
$ \mathcal{O}_t $	$ t $ 时刻的多模态观察值
$ \mathcal{A}_t $	动作标记 (Action Tokens)
$ \mathcal{P}_e $	轨迹进度预测因子
$ \phi_e $	具身感知的 Embedding

理论推导：动作生成概率

Green-VLA 将具身动作预测建模为基于进度预测 $ \mathcal{P}_e $ 的联合条件分布，旨在解决长时程任务中的因果混淆问题。其核心损失函数定义为：

$$ \mathcal{L}_{VLA} = \mathbb{E}_{(\mathcal{O}, \mathcal{A}) \sim \mathcal{D}} \left[ -\log P(\mathcal{A}_t | \mathcal{O}_{1:t}, \mathcal{P}_e, \text{Task}) + \lambda \cdot \|\mathcal{P}_e - \hat{\mathcal{P}}_e\|^2 \right] $$

其中 $ \lambda $ 是控制进度辅助任务权重的超参数。

ALGORITHM: PROGRESS-AWARE ACTION INFERENCE

def green_vla_step(obs, task_desc, history):
    # 1. Encode multimodal observation and text
    latent_state = vlm_encoder(obs, task_desc)
    
    # 2. Episode progress prediction (Aux Task)
    progress_val = progress_head(latent_state)
    
    # 3. Action tokenization & generation
    action_tokens = action_decoder(latent_state, progress_val, history)
    
    # 4. Out-of-distribution (OOD) check
    is_safe = ood_detector(latent_state)
    
    return action_tokens if is_safe else emergency_stop()

3. Reproducible Methodology

HW 硬件与数据细节

采用 Green 人形机器人作为主测平台，适配包含 32 个关节的 1.1m 高度仿人机构。

Compute 8x NVIDIA H100 (Fine-tuning)

Data Scale 3,000 Hours of Multimodal Demos

Action Freq 25 Hz (Closed-loop)

ST 五阶段训练课程 (Five Stages)

L0 & L1: FOUNDATION

在大规模视觉文本数据上预训练，引入空间定位（Grounding）能力。

R0: PRE-TRAINING

多机体联合训练，提取通用的动作词元（Action Affordance）。

R1 & R2: ADAPTATION

特定机体精调，并引入 RL 进行长时程任务的闭环策略对齐。

4. Results & Insights

主流基准测试对比 (Success Rate %)

Method	BridgeData V2	RT-2 (SOTA)	Green-VLA (Ours)
Bimanual Pick & Place	62.1	74.5	88.2 ↑
Long-horizon Stacking	45.8	58.9	76.4 ↑
Zero-shot Generalization	31.2	42.6	55.9 ↑

数据解读：进度预测的作用

实验观察到，引入 $\mathcal{P}_e$ 后，模型在遇到相似物体时的“反复动作”概率降低了 42%。这证明了任务进度显式建模能显著减少马尔可夫决策中的循环冲突。

物理直觉：共享示能空间

R0 预训练成功让模型学习到了抽象的 "Grasp" 和 "Push" 示能，这使得人形机器人可以复用移动底座机器人的操作先验。

5. Critical Review (AC Perspective)

Pros: 显著优势

• 系统性创新：分阶段学习路径解决了大模型知识到机器人动作的“跨度过大”问题。
• 真实部署验证：在复杂的人形机器人双臂操作上证明了极高的稳定性。
• 数据治理严密：DATAQA 的引入确保了微调数据的长时程一致性。

Cons: 局限性

• 计算开销：多阶段的流水线虽然效果好，但推理延迟在低算力边缘端仍具挑战。
• 泛化边界：对于非刚性、具有极高流体特性的物体，零样本表现仍有待加强。

Future Directions

未来的研究应更关注 World Model 的集成，使机器人具备预测物体因物理交互产生形变的能力，以及进一步降低推理侧的 Action Token 序列长度。

INSIGHT EXTRACTION

One More Thing

研究团队发现了一个有趣的 "Embodiment Synergy"（机体协同） 效应：虽然不同机器人的动作幅度不同，但它们在注意力图（Attention Map）中对关键特征的关注具有高度一致性。这意味着 VLA 的“大脑”部分是可以完全解耦并跨平台共享的，这为未来构建“通用机器人操作系统”奠定了坚实基础。

G

Green Humanoid Fleet

Unified Action Interface v2.0