2023 年,三星公司在接入 ChatGPT 不久之后,接连发生数起内部机密泄露事件。事件起因是三星员工将半导体设备参数、产品源代码和生产良率等商业机密直接输入对话系统,导致敏感信息被录入 ChatGPT 的训练数据库。
无论是政务数据、个人隐私还是企业知识产权,一旦上传至云端都可能面临泄露风险。当前手机上常见的 AI 应用,其运行模式通常是将用户的查询数据上传到云端服务器进行处理,而非在手机本地运行大模型。这意味着用户在使用时需要同意服务商的数据使用协议,授权其上传和处理数据。
这种云端模式存在隐私和安全方面的风险。未来,随着大模型使用成本的下降,AI 将真正渗透到日常生活的方方面面。届时,如果未来所有智能交互都依托云端基础设施,社会各层级的信息将不可避免地向少数平台集中,无法兼顾数据安全和智能化。
为此,南京大学计算机学院研究员李猛团队在近期一项研究中,通过使用国产显卡来推动模型的本地化部署,旨在解决上述隐私与安全问题。与此同时,该研究也旨在利用更少的显存资源完成更复杂的计算任务,从而缓解高性能显存供应紧张的问题。
图 | 李猛和团队,后左 1 和左 3 为该项目主力同学,朱国迎和刘薛臣(来源:课题组)
研究中,他和团队首次发现了混合专家模型中“低分专家可被替换”这一关键规律,基于此规律他们首次设计出能将专家缓存命中率提升 2 倍以上、能够最大化显存利用效率的系统方法。
在中小企业或家庭等边缘计算场景中,这项技术能大幅降低硬件成本。例如,原本需要两张显卡才能运行的任务,现在一张显卡即可胜任。未来人们不再需要将模型全部权重加载到显存中,就能显著节省推理服务的显存占用。
另一个极具潜力的方向是移动端。手机内存天然受限,目前大多只能运行高度压缩的模型,这往往伴随着计算量增大和性能损失。而本次技术能将更强大的混合专家模型部署到手机上,这意味着用户无需购买超大内存的手机,就能在现有设备上体验到更高智能水平的模型。
(来源:https://arxiv.org/pdf/2508.18983)
未来无需为追求更强 AI 购买更高内存手机
李猛团队之所以致力于将大模型能力部署在手机等边缘端侧设备上,是因为这种方式能让 AI 计算在本地完成,数据无需离开用户设备,从而在隐私保护、安全性和服务可靠性方面都更具优势,为用户提供一种更稳健、可控的 AI 使用方案。
那么,这会对手机价格带来影响吗?手机内存规格是厂商定价的一个因素。但是,本次技术的核心在于更高效地利用手机已有的内存硬件,而不是改变其物理规格或推高价格。
李猛观察到,随着大模型能力向端侧下沉,未来手机行业的一个趋势是:为了在本地运行更强的 AI 模型,手机内存规格可能会被动提升,这确实可能导致手机价格上涨,用户相当于为更强大的端侧智能付费。而本次成果恰好提供了一个更优的解决方案:它能让手机在现有内存容量下,实现原本需要更大内存才能支撑的推理能力。
这意味着用户可能无需为追求更强 AI 功能而必须购买更高内存版本的手机,从而在获得先进体验的同时,缓解了因硬件升级带来的成本压力。
对于普通用户而言,他们可能直观上会觉得云端大模型能力更强、体验更好。然而,在必须使用本地模型的合规场景下,本次技术首先解决了“有无”问题,使得在端侧部署可用模型成为可能。
其次,对于高度重视个人隐私的用户来说,这项技术至关重要。如果你很在意数据安全,那么就不希望将个人信息交给那些数据处理政策不明的 App。
目前,一些大模型具备所谓的“读心术”功能,本质上是通过全面收集和分析用户的历史数据(包括使用记录和对话内容)来推测个人信息。这种深度的数据采集和潜在的信息泄露风险是相当可怕的,而本地化部署则能从根本上避免此类隐私问题。
(来源:https://arxiv.org/pdf/2508.18983)
将模型的内存占用减少一半以上
据介绍,李猛团队在与业界沟通时发现:当前国内高校采购英伟达显卡时,面临价格高昂和受制裁的限制,因此需要寻找国内可替代的显卡方案。
然而,李猛在尝试使用国产显卡进行开发时发现,这些显卡虽然在算力上能够满足需求,但显存容量普遍不足。例如,在尝试将一个大模型载入 24GB 显存时,尽管算力是足够的,但却因显存不足而无法加载完整模型。
目前,各种手机助手在提供本地 AI 功能时,底层实际上都运行着一个大模型(可能是厂商自研的),需要被加载到手机内存中进行本地计算。
眼下,一些厂商已开始尝试将模型完全部署在本地运行,但这带来了显著的内存占用问题。手机内存本身已被各类应用大量占用,再加载一个大模型就如同在拥挤的房间里硬塞进一个沙发,空间会更加捉襟见肘。
因此,李猛团队开始探索如何在固定规格的显卡中加载并运行更大的模型。核心思路是充分利用算力资源,通过优化显存使用来以更经济、高效的方式运行模型。
由于 Transformer 等架构的模型是分层计算的,所以当前那些没被使用的层无需一直占用显存。
基于此,他们将暂时不需要的模型权重存放在外部,待需要时再动态加载至显存中,从而缓解显存瓶颈,旨在实现在有限显存条件下运行更大模型的目标,即让模型无需完整驻留内存,而是只将当前必需的部分保留在内存中,其余部分暂存于外部,待需要时再动态调入。
这相当于将模型的内存占用减半甚至更多,从而在有限的手机内存资源下,高效地实现强大的本地 AI 功能。
(来源:https://arxiv.org/pdf/2508.18983)
刷新对于国产显卡的认识
另据悉,这次研究由李猛和业界共同探索完成。最初,李猛团队期望能在手机上部署该技术,但发现当时模型对内存的需求仍然过大,超出了手机的承载能力,因此手机端合作暂时搁置。
随后,李猛团队转向与国产算力团队展开合作。后者为其提供了自研的国产计算卡等资源支持,这些卡虽然算力足够,但显存容量同样有限。在这一现实约束下,李猛和学生梳理了已有的相关工作,但无论是预加载方案还是直接丢弃部分专家的方案,都无法在速度和精度上同时令人满意。
于是,他们转而开始研究混合专家模型训练过程中的原理性工作,并注意到了其中可能存在的专家冗余特性。由此,他们提出了“专家替换”的猜想,但初期尝试表明,直接进行全局替换效果不佳。
此时,他们关注到高通研究院的相关成果,后者发现丢弃低分专家有时对精度影响不大,这让他们意识到:或许可以专注于对低分专家进行替换。
将“替换”与“聚焦低分”这两个思路结合后,他们取得了关键突破:只需替换低分专家,就能同时实现速度快和精度高。但是,这只优化了单步计算,而一个实用的系统需要达到全局最优。
为此,他们进一步探索了专家选择在连续几步中的规律,发现其存在明显的连续性。基于此,李猛团队将专家替换策略与多步预测相结合,设计了一套完整的系统,能够最大化专家复用概率并将显存命中率提升至最高。
当这套系统在国产算力和英伟达等计算平台上验证有效后,他们重新审视了手机端的应用。虽然手机端需要更精细的内存管理,但底层原理是相通的。
(来源:https://arxiv.org/pdf/2508.18983)
据了解,整个研发过程是在“不改动模型架构、不牺牲精度”的严格约束下推进的。正是这种约束促使他们必须从系统层面发现新规律,并让其果真发现了“专家可替换性”的规律,它直接催生了新的系统设计,带来了整体性能的显著提升。目前,这一“专家替换”思路及相应的系统设计仍是该团队的首创,尚未见到类似工作。
这次研究也让李猛对国产硬件有了全新的认识。在项目启动前,他尚未实际接触到国产硬件,对国产算力的性能和生态完善度也曾存有疑虑。而通过这次实践,他切身感受到国产硬件生态正在快速成长且实力可观。
尽管在工具链等方面可能仍面临一些挑战,但他和团队所需的支持最终都能找到解决方案。“可以说,我亲眼见证了国内计算生态与硬件能力建设的显著进步。虽然与国际顶尖水平仍有差距,但未来的发展前景无疑是值得期待的。”李猛表示。
(来源:https://arxiv.org/pdf/2508.18983)
基于此次研究,他和团队形成了一个重要认知:即单纯聚焦于硬件或软件算法都远远不够,必须推动软硬件与算法的协同设计和螺旋式迭代。
这指引他们确立了新的研究方向:持续专注于端侧与边缘侧,包括手机、个人电脑及小型服务器等资源受限场景,致力于提升这些设备上的智能计算能力。
李猛告诉 DeepTech,他的愿景是希望智能计算(如 Token 所代表的计算资源)能像水电一样,成本降至全社会可普遍使用的水平,让小型或廉价设备也能承载强大的智能。
展望未来,他计划进一步降低单位智能的计算成本,并推动其在更广泛场景的落地。未来,也许仅需几十或几百元的小型硬件模块,就能让普通设备具备显著的智能化能力。这将从根本上提升社会生产力,将人们从重复、繁重的劳动中解放出来,从事更具创造性的工作。
正如自来水的普及彻底改变了人们取用水的方式,李猛相信通过将智能计算推向边缘和终端、不断降低成本,最终将实现智能技术的普惠化。
参考资料:
相关论文 https://arxiv.org/pdf/2508.18983
运营/排版:何晨龙