VLA论文阅读

AI机器人VLA模型论文阅读总结

本文档是对 Spec-VLA 和 FAST ($\pi_0$-FAST) 两篇核心论文的阅读、分析与思考总结。这两篇论文分别从“推理速度”和“训练效率/高频控制”两个不同维度,对视觉-语言-动作(VLA)模型进行了关键优化。

第一部分:Spec-VLA的阅读与思考(优化推理速度)

Spec-VLA: Speculative Decoding for Vision-Language-Action Models with Relaxed Acceptance

1. 核心问题:VLA模型的推理缓慢

  • 问题所在: Spec-VLA 论文所基于的VLA模型(如 OpenVLA、RT-2)在推理(即机器人实际“决策”)时非常缓慢
  • 根本原因: 这些模型是**自回归(AR)**的。更糟糕的是,它们的“令牌”(Token)粒度非常细。
  • 令牌定义: 在 OpenVLA 中,一个令牌不等于一个完整的动作。一个令牌仅代表一个7维动作向量中的一个维度(例如 $\Delta pos_x$)。
  • 低效的串行过程: 为了预测一个时间步的完整动作(7维),模型必须依次(串行地)执行7次昂贵的前向传播,严重限制了机器人的实时反应能力:
    1. [输入 图像/指令] $\rightarrow$ 输出 $\Delta pos_x$ 令牌
    2. [输入 图像/指令, $\Delta pos_x$] $\rightarrow$ 输出 $\Delta pos_y$ 令牌
    3. [输入 图像/指令, … $\Delta rot_z$] $\rightarrow$ 输出 gripper 令牌

2. 解决方案:推测解码(Speculative Decoding, SD)

Spec-VLA 的核心思想是加速上述的串行解码过程,它是一个推理时的优化框架。

  • 双模型架构:
    1. 验证模型 ($M_V$): 原始的、昂贵的 OpenVLA-7B 模型。
    2. 草稿模型 ($M_D$): 一个小型的、高效的 Llama 解码器层,需要单独训练。
  • 加速流程(老板与助理):
    1. 草稿(Drafting): “助理”($M_D$)廉价且快速地(串行)“猜测”出接下来 $k$ 个令牌(例如 $\Delta pos_x, \Delta pos_y, \Delta pos_z$)。
    2. 并行验证(Verification): “老板”($M_V$)利用Transformer的并行计算能力,一次前向传播就同时验证这 $k$ 个“草稿”令牌。
    3. 结果: 用1次昂贵的并行计算代替了k次昂贵的串行计算,实现了显著的推理加速。

3. 关键创新:宽松接受(Relaxed Acceptance)

  • 新问题: 机器人动作预测很难,“助理” $M_D$ 猜的草稿经常“不完全正确”,导致接受率低,加速效果差。
  • 传统SD: 必须完全匹配($\hat{a}_i == a_i$)才接受。
  • Spec-VLA 的洞察: 在VLA中,令牌代表的是离散化的物理“箱子”。令牌ID 100 和 101 在物理上是极其接近的。
  • 宽松接受: Spec-VLA 允许草稿令牌 $\hat{a}_i$ 与验证令牌 $a_i$ 之间存在一个小的“距离阈值 r”。只要草稿“足够接近”正确答案(例如物理距离在 $r$ 范围内),就被接受。
  • 效果: 接受率大幅提高,在不牺牲任务成功率的前提下,实现了高达1.42倍的加速。

4. 进阶技术:动态草稿树(Dynamic Draft Tree)

  • 为了进一步提高接受率,Spec-VLA 还使用了“动态草稿树”解码。
  • 当“助理” $M_D$ 对下一步预测不确定时(例如,40%认为是令牌A,35%认为是令牌B),它不会只赌一个
  • 它会同时生成多个分支(一个“树”),然后让“老板” $M_V$ 一次性并行验证所有的分支,大大增加了“猜对”的概率。

第二部分:FAST / $\pi_0$-FAST的阅读与思考(优化训练与高频控制)

FAST: Efficient Action Tokenization for Vision-Language-Action Models

1. 核心问题:VLA模型的数据高频信息密度低与训练效率低下

FAST 解决的是一个与 Spec-VLA 完全不同的问题。

  1. 高频控制失灵: 传统VLA(如 OpenVLA)在处理高频、灵巧的任务(如50Hz折叠T恤)时完全失败
    • 原因: 在50Hz下,时间 $t$ 和 $t+1$ 的动作几乎完全相同。这导致“下一个令牌”几乎不包含新信息,模型的“学习信号”非常弱,导致训练失败。
  2. 训练效率低下: 当时的SOTA(最先进)模型(如 $\pi_0$-Diffusion)虽然能处理高频任务,但它们是扩散模型,训练成本极高(论文中提到 $\pi_0$-FAST 训练速度快5倍)。

2. 解决方案:一种全新的令牌化方案(FAST)

FAST 的核心思想是:如果“下一个令牌”没有信息量,那就重新定义“令牌”!

  • 令牌定义(根本不同):
    • OpenVLA 令牌 = 1个时间步的1个维度(例如 $\Delta x$)。
    • FAST 令牌 = 一整段动作块(例如1秒)的压缩频率信息的一部分。
  • FAST 令牌化器(一个算法,而非NN):
    1. 获取信号: 取1秒钟的连续动作数据(一个“Chunk”)。
    2. DCT变换 (核心): 使用离散余弦变换(JPEG图像压缩同款技术)将时域信号转换为频域信号。此时,信号的大部分信息被压缩到少数几个低频系数上。
    3. 量化/压缩: 通过缩放和四舍五入,使系数矩阵变得稀疏(大部分为0)。
    4. BPE编码 (唯一“训练”部分): 使用字节对编码(GPT分词器同款技术)对这些稀疏系数进行无损压缩。BPE的“训练”目标是最大化压缩率,它学习如何用最少的BPE符号来表示这些系数。
  • $\pi_0$-FAST 模型:
    • 这是一个标准的自回归(AR)模型(骨干是 PaliGemma-3B)。
    • 它被训练来预测下一个 FAST(BPE)令牌
    • 由于 FAST 令牌代表的是高信息密度的“频率分量”,因此“下一个令牌预测”任务变得有意义且高效。

3. 总结:FAST的优势

$\pi_0$-FAST 是一个自回归模型,它通过预测 FAST 令牌(即动作块的压缩频率分量),成功解决了高频控制任务,同时达到了与SOTA扩散模型相当的性能,但训练速度快了5倍。

第三部分:关于Transformer的理解与思考

在研究这两篇论文时,对Transformer的底层工作机制有了更清晰的理解,这对于区分二者的工作原理至关重要。

1. “令牌”(Token**)与**“嵌入”(Embedding)

  • 令牌(Token): 是一个整数ID,来自一个预先确定的“词汇表”。例如,OpenVLA 的 $\Delta pos_x$ 维度有256个“箱子”,令牌就是 0 到 255 之间的整数。$\pi_0$-FAST 的BPE词汇表有1024个符号,令牌就是 0 到 1023 之间的整数。
  • 嵌入(Embedding): 是一个高维特征向量(例如4096维)。它存储在一个巨大的“查询表”(nn.Embedding)中。令牌ID就是这个表的索引

2. 训练目标(Loss)不是“Embedding差”

  • Transformer的训练目标不是预测一个高维Embedding向量然后计算L2距离(这是回归问题)。
  • 它的训练目标是预测下一个令牌ID(这是一个分类问题)。
  • 流程:
    1. Decoder主体输出一个高维“思考总结”向量(例如4096维)。
    2. 一个最终的线性层(LM Head)将其投影到一个巨大的“Logits”向量上,维度等于词汇表大小(例如50,000维)。
    3. Logits通过 Softmax 转换为一个概率分布(例如,模型认为ID 191 有95%的概率是答案)。
    4. **交叉熵损失(Cross-Entropy Loss)**被用来计算这个“概率分布”和“真实令牌ID(191)”之间的差距。
  • 这个Loss的梯度会反向传播,更新包括Embedding层在内的所有模型参数。

3. Transformer的“并行魔法”:因果掩码

  • 标准AR推理(慢): 是一个串行循环,必须输入[T1] $\rightarrow$ 得到T2,然后输入[T1, T2] $\rightarrow$ 得到T3。
  • Spec-VLA的并行验证(快): 它利用了Transformer在训练时的并行机制。
  • 工作原理:
    1. Spec-VLA 将 [\hat{a}_1, \hat{a}_2, \hat{a}_3] 一次性输入到 OpenVLA 模型中。
    2. 模型内部的因果掩码(Causal Mask)(或称“前瞻掩码”)生效。
    3. 这个掩码确保了:
      • 在计算位置1的输出($a_1$)时,模型只能看到 <START>。
      • 在计算位置2的A输出($a_2$)时,模型只能看到 $\hat{a}_1$。
      • 在计算位置3的输出($a_3$)时,模型只能看到 $\hat{a}_1$ 和 $\hat{a}_2$。
    4. 因此,模型在一次前向传播中,就并行地计算出了所有位置的“正确”输出 [a_1, a_2, a_3],这正是Spec-VLA加速的核心。

VLA论文阅读
https://edsad122.github.io/blog/2025/11/13/VLA/
作者
Edasd
发布于
2025年11月13日
许可协议