AndrejKarpathy对大语言模型未来交互方式的观点：最终形态将是某种流

蚁工厂 2025-05-02 09:54:43

Andrej Karpathy对大语言模型未来交互方式的观点：最终形态将是某种流动的、神奇的、短暂的、交互式的 2D 画布（GUI）

---------------------------------

与大语言模型（LLM）“聊天”感觉就像在使用 80 年代的计算机终端。图形用户界面（GUI）尚未被发明，但在我看来，它的一些特性已经可以开始预测了。

它将是视觉化的（就像过去的 GUI 一样），因为视觉（图片、图表、动画，而非大量阅读）是通往大脑的“十车道高速公路”。它是最高的信息输入带宽，并且大脑约有 1/3 的计算资源专门用于处理视觉信息。

它将是生成式的和根据输入条件生成的（input-conditional），也就是说，GUI 是按需生成的，专门针对你的提示（prompt）而创建，并且所有呈现的内容都会根据当前的直接目的进行重新配置。

一个更开放一点的问题是——程序化（procedural）的程度。在一个极端，你可以想象一个大型扩散模型（diffusion model）“构想”出整个输出画布。在另一个极端，则是一个充满了（程序化的）React 组件或类似东西的页面（想想：图片、图表、动画、示意图……）。我猜测会是两者的混合，以后者作为主要骨架。

但我现在敢打赌，随着能力趋于无穷大（∞），其最终形态将是某种流动的、神奇的、短暂的、交互式的 2D 画布（GUI），它是为你从头开始、专门生成的。而且我认为这个过程已经慢慢开始了（例如，想想：代码块/高亮、LaTeX 块、Markdown 格式如加粗、斜体、列表、表格、甚至表情符号，以及可能更进一步的 Artifacts 标签页，其中包含 Mermaid 图表或更完整的应用程序），尽管这一切目前都还非常早期和原始。

特别要提一下《钢铁侠》（以及在某种程度上，《星际迷航》/《少数派报告》），这些流行文化中对 AI/UI 的描绘，正是在朝着这个方向探索（barking up this tree）。

AI创造营 AI生活指南