理想连发两篇VLA机器人论文2025年11月24日理想发布Compressor-

理想连发两篇VLA机器人论文2025年11月24日理想发布Compressor-VLA与AVA-VLA。Compressor-VLA提出了一种针对机器人操作场景的高效视觉压缩方案，旨在解决端到端模型太重、太慢的落地难题。教会了机器人带着目的去观察，通过语言指令过滤掉视觉垃圾，用更少的算力实现更精准的操作。AVA-VLA针对现有端到端机器人大模型最核心的健忘问题，提出了一套工程化解决方案。以下为更细化论述：图1现在的具身智能大模型存在极其严重的算力浪费: 像一个强迫症患者，花费巨量算力去处理背景墙纸、地板纹理等无关紧要的视觉信息，导致推理延迟过高，无法满足机器人的实时控制需求。反直觉现象: 为了给模型减肥，传统做法是直接丢弃视觉token。这种盲目剪枝会导致灾难性后果——模型为了降低计算量，可能会保留纹理清晰的桌布图案，丢弃了模糊但至关重要的物体边缘或把手位置。现有的压缩算法是任务无关(Task-Agnostic)的。也就是说，压缩器是个瞎子，它只看图片本身，根本不知道机器人当下的任务是拿苹果还是关抽屉。这导致在压缩过程中，关键的任务线索被当做噪声误删了。解决方案框架采用了一种双通道互补结构，类似于指挥官 + 工匠的配合模式：通道一(指挥官): 负责看全局，搞清楚要干什么，提取宏观语义。通道二(工匠): 负责看局部，搞清楚具体位置，保留空间几何细节。所有的视觉处理，必须先经过语言指令的过滤和调制。A.核心驱动力: 指令即滤镜 (Instruction Guidance)不要另外挂一个繁重的语言模型(如CLIP)，直接复用VLA模型内部自带的语言向量。系统将人类的自然语言指令(例如把茄子放进碗里)转化成一个信号向量，用这个信号去动态调整视觉处理器的参数。这就好比给摄像头加了一个智能滤镜，如果指令说找红色，滤镜就会自动抑制绿色像素的权重。B.语义任务压缩器 (STC) —— 全局搜索机制: 使用交叉注意力（Cross-Attention）机制。逻辑: 这是一个基于查询（Query）的提取器。系统生成一组可学习的探针，这些探针会根据语言指令进行变形（通过 FiLM 机制调节）。效果: 假如指令是拿杯子，这些探针就会变成杯子探测器，在整张图片上扫描，只提取与杯子相关的语义信息，忽略背景杂波。这解决了宏观理解的问题。C.空间精炼压缩器 (SRC) —— 局部保真使用局部窗口注意力（Local Window Attention）机制。STC虽然懂语义，但容易丢失坐标信息(把杯子认出来了，但坐标歪了)。SRC将图片切分成一个个小窗口，在每个窗口内，直接将语言指令作为一种提示注入进去。强迫模型在保留原始空间结构(拓扑关系)的前提下，在局部范围内高亮显示与任务相关的细节(如物体的边缘、抓取点)。解决了微操精度的问题。整个数据流转过程为: 感知输入: 机器人摄像头获取高分辨率图像，同时接收用户的文本指令。指令调制: 文本指令被编码为向量，分发给两个压缩通道。双轨并行处理：语义路: 提取极少量的概念Token(浓缩的意图)。空间路: 提取保留了位置信息的“特征Token(压缩的地图)。融合决策: 将两路Token拼接在一起，喂给大脑(LLM)。动作输出: LLM 根据这些精简后的高质量信息，直接输出机械臂的控制信号（笛卡尔坐标变化）。图2主流VLA模型患有严重的金鱼记忆综合症。通常采用单帧处理模式，把连续的机器人操作强行拆解为一张张独立的图片来处理，完全丢弃了上一秒发生了什么这个关键的上下文信息。这导致模型在面对遮挡、动态变化或长序列任务时，表现出由于看不懂因果关系而不知所措的笨拙感。反直觉现象: 使给模型喂了很高清的实时画面，它依然经常抓不住重点。例如，当机械臂挡住了目标物体时，传统模型因为只看当前这一帧（物体不可见），就会立刻迷路，不知道该继续去抓还是停下。现有的设计逻辑隐含地假设世界是完全可观测的(MDP)，即我只要盯着现在看，就能知道一切。但现实世界是部分可观测的(POMDP)，很多信息(比如抽屉里有什么、刚才我已经把盖子拧开了)是隐藏在历史时间轴里的，而不是画在当前图片上的。现有的视觉注意力机制是被动的，它被动接收全图信息，而不是基于历史经验主动去搜索画面中的关键点。信念状态生成器(Memory Core): 负责把上一时刻的模型思考状态(Hidden States)压缩并保存下来，作为记忆。主动视觉注意力模块(AVA Module): 这是核心。它不直接处理图像，而是结合记忆和当前指令，告诉视觉编码器：根据刚才的动作，现在你应该重点看左下角那个把手，忽略背景里的桌子。动作执行器: 传统的VLA骨干，基于被提纯过的视觉信息输出机械臂动作。A. 记忆的工程化实现(The Recurrent State) 神经网络近似: 直接提取上一时刻解码器输出的隐藏层状态，通过一个简单的映射层(MLP)，将其转化为一个代表历史上下文的向量。这个向量就是机器人的短期记忆。B. 主动注意力机制(Active Visual Attention Mechanism)交叉检索策略: 系统使用当前的图像特征作为查询方(Query)，使用上一时刻的记忆向量作为被查询方(Key/Value)。这实际上是在问一个问题: 基于我之前的记忆，这张图里哪些像素块是有用的？。软权重调节(Soft Weights):输出不是硬性的 0 或 1，而是一组连续的增益系数。增强与抑制: 模型会算出两组分数，一组用于放大关键区域的信号(如物体的边缘)，一组用于衰减无关区域的信号(如背景墙)。这使得模型具备了主动过滤信息的能力。C. 训练时的惩罚机制(Loss Function Strategy)动作精准度惩罚: 如果预测的动作轨迹偏离了人类示范，施加常规惩罚。注意力平衡惩罚(L2 Regularizer): 为了防止模型偷懒(比如把所有像素权重都设为0，或者全设为1)，引入了一个调节项，强制所有视觉Token的平均权重保持在一个合理的预设值附近(如 0.6)。这迫使模型必须有选择性地分配注意力，不能躺平。由于显存限制，无法回溯整个长视频。工程上采用了截断式反向传播。即每次只取一小段连续的时间片(比如 4 帧)进行训练，让模型学会短时序内的因果关联，而不必负担整个历史包袱。推流(Inference - Recurrent Loop):初始化: 第一帧时，记忆向量为空。感知与加权: 读入当前帧 -> 调取上一帧的记忆 -> AVA 模块计算出权重 -> 对当前视觉特征进行加权增强。决策与更新: 预测当前动作 -> 同时产出新的隐藏状态 -> 刷新记忆向量。循环: 带着新记忆进入下一帧。相比于只看单帧的 OpenVLA，AVA-VLA 在光照变化、背景干扰和物体布局变动等高噪声环境下，成功率有显著提升。这说明它学会了在噪点中找信号。由于 AVA 模块计算出了每个图像块的重要性，可以直接把那些权重低的token直接删掉。实验表明，即使删掉 90% 的视觉信息，只保留最核心的 10%，机器人的操作成功率几乎没有下降。这意味着推理速度可以大幅提升。

游戏百科

理想连发两篇VLA机器人论文2025年11月24日理想发布Compressor-

热门分类