理想连发两篇VLA机器人论文2025年11月24日理想发布Compressor-VLA与AVA-VLA。Compressor-VLA提出了一种针对机器人操作场景的高效视觉压缩方案,旨在解决端到端模型太重、太慢的落地难题。教会了机器人带着目的去观察,通过语言指令过滤掉视觉垃圾,用更少的算力实现更精准的操作。AVA-VLA针对现有端到端机器人大模型最核心的健忘问题,提出了一套工程化解决方案。以下为更细化论述:图1现在的具身智能大模型存在极其严重的算力浪费: 像一个强迫症患者,花费巨量算力去处理背景墙纸、地板纹理等无关紧要的视觉信息,导致推理延迟过高,无法满足机器人的实时控制需求。反直觉现象: 为了给模型减肥,传统做法是直接丢弃视觉token。这种盲目剪枝会导致灾难性后果——模型为了降低计算量,可能会保留纹理清晰的桌布图案,丢弃了模糊但至关重要的物体边缘或把手位置。现有的压缩算法是任务无关(Task-Agnostic)的。也就是说,压缩器是个瞎子,它只看图片本身,根本不知道机器人当下的任务是拿苹果还是关抽屉。这导致在压缩过程中,关键的任务线索被当做噪声误删了 。解决方案框架采用了一种双通道互补结构,类似于指挥官 + 工匠的配合模式:通道一(指挥官): 负责看全局,搞清楚要干什么,提取宏观语义。通道二(工匠): 负责看局部,搞清楚具体位置,保留空间几何细节。所有的视觉处理,必须先经过语言指令的过滤和调制。A.核心驱动力: 指令即滤镜 (Instruction Guidance)不要另外挂一个繁重的语言模型(如CLIP),直接复用VLA模型内部自带的语言向量。系统将人类的自然语言指令(例如把茄子放进碗里)转化成一个信号向量,用这个信号去动态调整视觉处理器的参数。这就好比给摄像头加了一个智能滤镜,如果指令说找红色,滤镜就会自动抑制绿色像素的权重。B.语义任务压缩器 (STC) —— 全局搜索机制: 使用交叉注意力(Cross-Attention)机制。逻辑: 这是一个基于查询(Query)的提取器。系统生成一组可学习的探针,这些探针会根据语言指令进行变形(通过 FiLM 机制调节)。效果: 假如指令是拿杯子,这些探针就会变成杯子探测器,在整张图片上扫描,只提取与杯子相关的语义信息,忽略背景杂波。这解决了宏观理解的问题。C.空间精炼压缩器 (SRC) —— 局部保真使用局部窗口注意力(Local Window Attention)机制。STC虽然懂语义,但容易丢失坐标信息(把杯子认出来了,但坐标歪了)。SRC将图片切分成一个个小窗口,在每个窗口内,直接将语言指令作为一种提示注入进去。强迫模型在保留原始空间结构(拓扑关系)的前提下,在局部范围内高亮显示与任务相关的细节(如物体的边缘、抓取点)。解决了微操精度的问题。整个数据流转过程为: 感知输入: 机器人摄像头获取高分辨率图像,同时接收用户的文本指令。指令调制: 文本指令被编码为向量,分发给两个压缩通道。双轨并行处理:语义路: 提取极少量的概念Token(浓缩的意图)。空间路: 提取保留了位置信息的“特征Token(压缩的地图)。融合决策: 将两路Token拼接在一起,喂给大脑(LLM)。动作输出: LLM 根据这些精简后的高质量信息,直接输出机械臂的控制信号(笛卡尔坐标变化)。图2主流VLA模型患有严重的金鱼记忆综合症。通常采用单帧处理模式,把连续的机器人操作强行拆解为一张张独立的图片来处理,完全丢弃了上一秒发生了什么这个关键的上下文信息。这导致模型在面对遮挡、动态变化或长序列任务时,表现出由于看不懂因果关系而不知所措的笨拙感 。反直觉现象: 使给模型喂了很高清的实时画面,它依然经常抓不住重点。例如,当机械臂挡住了目标物体时,传统模型因为只看当前这一帧(物体不可见),就会立刻迷路,不知道该继续去抓还是停下。现有的设计逻辑隐含地假设世界是完全可观测的(MDP),即我只要盯着现在看,就能知道一切。但现实世界是部分可观测的(POMDP),很多信息(比如抽屉里有什么、刚才我已经把盖子拧开了)是隐藏在历史时间轴里的,而不是画在当前图片上的 。现有的视觉注意力机制是被动的,它被动接收全图信息,而不是基于历史经验主动去搜索画面中的关键点 。信念状态生成器(Memory Core): 负责把上一时刻的模型思考状态(Hidden States)压缩并保存下来,作为记忆。主动视觉注意力模块(AVA Module): 这是核心。它不直接处理图像,而是结合记忆和当前指令,告诉视觉编码器:根据刚才的动作,现在你应该重点看左下角那个把手,忽略背景里的桌子。动作执行器: 传统的VLA骨干,基于被提纯过的视觉信息输出机械臂动作。A. 记忆的工程化实现(The Recurrent State) 神经网络近似: 直接提取上一时刻解码器输出的隐藏层状态,通过一个简单的映射层(MLP),将其转化为一个代表历史上下文的向量。这个向量就是机器人的短期记忆 。B. 主动注意力机制(Active Visual Attention Mechanism)交叉检索策略: 系统使用当前的图像特征作为查询方(Query),使用上一时刻的记忆向量作为被查询方(Key/Value)。这实际上是在问一个问题: 基于我之前的记忆,这张图里哪些像素块是有用的? 。软权重调节(Soft Weights):输出不是硬性的 0 或 1,而是一组连续的增益系数。增强与抑制: 模型会算出两组分数,一组用于放大关键区域的信号(如物体的边缘),一组用于衰减无关区域的信号(如背景墙)。这使得模型具备了主动过滤信息的能力 。C. 训练时的惩罚机制(Loss Function Strategy)动作精准度惩罚: 如果预测的动作轨迹偏离了人类示范,施加常规惩罚。注意力平衡惩罚(L2 Regularizer): 为了防止模型偷懒(比如把所有像素权重都设为0,或者全设为1),引入了一个调节项,强制所有视觉Token的平均权重保持在一个合理的预设值附近(如 0.6)。这迫使模型必须有选择性地分配注意力,不能躺平 。由于显存限制,无法回溯整个长视频。工程上采用了截断式反向传播。即每次只取一小段连续的时间片(比如 4 帧)进行训练,让模型学会短时序内的因果关联,而不必负担整个历史包袱 。推流(Inference - Recurrent Loop):初始化: 第一帧时,记忆向量为空。感知与加权: 读入当前帧 -> 调取上一帧的记忆 -> AVA 模块计算出权重 -> 对当前视觉特征进行加权增强。决策与更新: 预测当前动作 -> 同时产出新的隐藏状态 -> 刷新记忆向量。循环: 带着新记忆进入下一帧。相比于只看单帧的 OpenVLA,AVA-VLA 在光照变化、背景干扰和物体布局变动等高噪声环境下,成功率有显著提升。这说明它学会了在噪点中找信号。由于 AVA 模块计算出了每个图像块的重要性,可以直接把那些权重低的token直接删掉。实验表明,即使删掉 90% 的视觉信息,只保留最核心的 10%,机器人的操作成功率几乎没有下降。这意味着推理速度可以大幅提升。

