游戏百科

对话影眸科技 CTO 张启煊:大力不会永远出奇迹

3D 生成行业很大,但刚刚到GPT-2 的水平,国内团队要领先海外团队,大厂与创业公司在同一起跑线。撰文|蓝洞商业 赵卫

3D 生成行业很大,但刚刚到 GPT-2 的水平,国内团队要领先海外团队,大厂与创业公司在同一起跑线。

撰文|蓝洞商业 赵卫卫

消费级的生成式 AI 屡见不鲜,工业级的生成式 AI 亟待新突破,继腾讯混元入局 3D 生成模型之后,字节跳动最近也发布了 3D 生成大模型 Seed3D 1.0。

工业级的 3D 生成意味着更高的精度和质量,而且适用的行业也主要集中在 B 端行业。腾讯混元 3D 生成模型已经进化到了 3.0 版本,主要用于游戏开发,而字节跳动展示的 3D 生成大模型使用场景,主要瞄准仿真环境中的具身智能大模型训练。

衡量一个 3D 生成模型的能力,目前没有绝对标准,只有相对质量的对比。

在字节跳动 Seed3D 1.0 的测试图中,还原度、透视与结构、几何质量等多个维度都优于同行对手,而它选取的国内对手中,表现较好的分别是影眸科技的 Rodin Gen-1.5、腾讯 Hunyuan 3D-2.1 和 VAST 的 Tripo 2.5。

影眸科技团队,后排左一为 CEO 吴迪,前排左一为 CTO 张启煊

尤其是影眸科技,这家专注于 3D 大模型技术的创业公司由吴迪、张启煊等人于 2020 年创立,去年 A 轮融资时,影眸科技的主要产品 Rodin 用 45 天就拿到了 100 万美元 ARR,字节跳动和美团龙珠领投,在今年的 A+ 轮中,字节跳动继续追加投资。

值得注意的是,过去一年间,字节在自身 AI 业务上飞速发展,但战略投资很少出手 AI 项目,影眸科技是为数不多的一家。

如今,字节跳动亲自下场布局 3D 生成模型,不难看出对这一赛道的重视,这也意味着 3D 生成市场会迎来更快发展。

9 月,影眸科技上新了 Rodin Gen-2.0 版本的模型,相比上一代模型,生成的 3D 模型有了更加锐利和平直的边缘,这一代模型在交互上增加了分件功能,让用户通过指定颗粒度来控制和重新拆分零件,增加了用户可用性的同时领先于同类产品。

与此同时,网易游戏的《蛋仔派对》、3D 打印行业的拓竹等公司和产品,都已经用上了影眸科技的Rodin,他们通过 Rodin 的 3D 生成开发产品,这大大提升了 3D 内容生产的规模和效率。

但 3D 生成的 ChatGPT 时刻尚未到来,影眸科技 CTO 张启煊认为,当下行业差不多刚刚发展到 GPT-2 的水平,而未来进化的方向,是要满足不同行业的具体使用场景,更需要互联网大厂和创业公司们齐头并进。

在腾讯、字节纷纷下场布局 3D 生成模型的当下,影眸科技作为创业公司如何思考未来的发展?「蓝洞商业」对话了影眸科技 CTO 张启煊,以下为内容精编:

蓝洞:你看到大厂相继入局 3D 生成的产品之后,第一反应是什么?

张启煊:这更像是一个信号,表示愿意投入 3D 生成这件事。

腾讯混元 3D 大模型真正的飞跃,是今年三四月份,混元 3D 把模型参数量上到了百亿级规模,这种尝试需要一次性投入巨大的算力成本,对初创公司来说风险很大,但幸运的是混元成功了,后面的公司再去 Scaling(规模化)就比较有信心了。

蓝洞:大厂在 3D 生成的场景上各有侧重,比如腾讯主要是游戏,字节主要是具身智能和电商,你们呢?

张启煊:具身智能的几家头部公司也都在用我们的产品,包括上海交大的穆尧老师有一个 Robo Twin 项目,通过结合现实世界的遥操作数据与数字孪生的合成数据,为双臂机器人的研究提供强有力的支持,他们就选择我们 Rodin 去生成具身智能的 3D 资产,因为生成的模型横平竖直规整度很高。

具身智能领域的数据来源有两个,一个是真实数据,另一个是虚拟数据。

如果你要在仿真环境中做虚拟数据的话,肯定需要 3D 资产在仿真环境中使用,那这个 3D 资产不可能靠扫描,也不太能够雇人去建,靠现有的数据集的话又太少了,这时候 3D 生成就是很好的方向。

消费级的文字、音频、图片或是视频内容生成,都是往社交媒体走的,但 3D 生成不是这种模态,它不是直接跟大众接触,从网易游戏到 3D 打印行业的拓竹,都是我们的客户,但不同行业对 3D 的要求是不一样的,差异非常巨大。

比如 3D 打印行业更关注模型的水密性,而游戏行业是一个很长的工业管线,我们在逐步攻破布线、UV 和绑定动画等问题,因为表面的平整度和曲面规范性非常重要。

蓝洞:对于一个普通用户来说,现在接触你们的 3D 生成最普遍的形式是什么?

张启煊:一个是 3D 打印,另外一个就是网易的游戏《蛋仔派对》。《蛋仔派对》上的「AI 模型生成」功能,让玩家输出文字或上传图片就可以生成高质量模型,然后在乐园工坊中直接使用,这意味着 3D ⽣成技术已经进⼊了⼤规模商业应⽤阶段。

能够跟大厂合作,是因为我们团队在国内的图形学中是领先的,在国际图形学顶级会议上斩获过「最佳论文奖」和「TOP10 技术论文速览」双料荣誉。

对于很多游戏公司来说,选择第三方模型是现阶段最稳妥的方案,因为各家模型有各自的特点,语言模型上 GPT-5 更好还是 Claude 更好?视频生成上 Sora-2 跟 VEO-3.1 哪个更好?大家都很难说绝对领先,我们只能说第一梯队是谁。

蓝洞:现阶段国内 3D 生成的第一梯队是谁?

张启煊:我认为是我们 Rodin-2 跟腾讯混元 3D。我们不担心竞争,最担心的是大厂没有加入这个游戏。

目前海外市场,基本占了我们收入的百分之七八十。海外主要在布局这一块的是 Roblox,它是一个在线游戏创建平台,让用户通过免费工具来创作内容,Roblox 最早做了 3D Control Net,能够产生高质量的输出。

一年前发布 1.0 版本的时候,我们的一个卖点就是可控性很高,用 3D 的 Control Net 把设计产品的长宽高比例等固定下来,而不是让 AI 胡乱生成, 这对游戏和工业设计是非常重要的刚需。上个月,混元 3D 也发布了原生 3D 组件生成模型的可控功能。

蓝洞:上个月发布的新版本,相比去年的 1.5 版本,行业有哪些新变化?外界有哪些新的反馈?

张启煊:现在跟去年相比,总的来说 3D 生成整个行业最大的变化就是参数量上去了。

比如去年年底,我们发布 Rodin Gen-1.5 版本的时候,参数量是超过 40 亿,而现在整个 3D 生成行业第一梯队中的模型,标配已经是百亿参数了,百亿参数也就意味着你背后的数据量,已经到百万级别了。

所以行业飞速发展,一方面创业公司有了资本和资源去收集大量 3D 数据,渠道已经打通,也不再担心 3D 数据从哪里来,而另外一方面,第一波做 3D 生成的公司已经赚钱了,所以互联网大厂也注意到了这个方向,开始跟游戏业务做协同,后面包括初创公司和大厂的竞争会更激烈。

我们影眸的特点是模型侧各种功能性上的改进,比如将模型快速拆解为多个独立部件,这些功能性和底层框架上比较领先。

上个月发布的新版本,我们已经提前把基座模型给到一些用户体验,主打的功能就是分件,用户体验感觉很不错。

但意想不到的反馈是,很多人觉得我们贴图质量变差了,其实我们做过 AB test,换回原来的贴图模型会更差,背后原因是模型质量提升了之后,大家对贴图的要求更高了,显得贴图质量变差了。

我们每个版本的迭代都是朝着用户需求展开,比如国内一家知名智能硬件科技企业,他们设计师都在用我们的产品,给我们的反馈是需要 3D 生成边缘锐利,我们回去就在 1.5 版本中把这个特性做出来了。如今到 2.0 版本,我们分件功能也是来自设计行业的需求,让设计变得更可控,使用面更广了。

对于 3D 打印行业来说,现在小红书上很多案例,都是用我们的产品生成 3D 设计之后拼装的案例。现在还需要下载之后在三维软件中进一步操作,但后面我们会把这一套流程集成在我们网站中,不再需要用户二次操作。

蓝洞:从你们的产品 UI 设计上,能感觉你们的审美超过很多大厂,这是怎么来的?

张启煊:我们团队很多艺术家,几个创始成员都喜欢拍电影,都会自己用三维动画软件 Blender 做 3D 渲染,所以很多产品宣传片让外界以为是专业团队做的,其实都是我们自己设计的。在交互上的设计也是,与其说满足自己的审美偏好,不如说帮用户做到足够方便,否则效果不会好。

蓝洞:就目前 3D 生成来说,大厂比创业公司的优势大很多吗?

张启煊:大模型最重要的还是数据。至少目前,大厂跟创业公司在 3D 生成上是站在同一起跑线的。比如说,我们现在的数据量级已经超出腾讯这样级别的大厂在做的游戏数据量。

举个例子,一般中小型游戏有几百到上千个模型,中大型游戏则是几千到上万个。假设顶级游戏公司有 100 个游戏,每个游戏有 1 万个模型,那么它最多有 100 万个模型,而我们现在有的数量级已经远远超过这个数量了。

大厂可以大力出奇迹,一次两次可以,但第三次可能就难了。大家能看出 GPT-5 和 GPT-4o 的巨大差别吗?所以要的是在体验和场景使用上的新突破。

3D 是个很大的行业,但 3D 生成现在其实差不多刚刚到 GPT-2 的水平,而且国内的团队要领先海外团队,我们私下开玩笑说,最聪明的那批人全都没在做 3D 生成,海外的聪明人都去做 AI 视频生成,都去做 AGI 了。

蓝洞:制约 3D 生成下一步发展的条件,除了巨大的算力消耗还有什么?如何找到新的突破方向?

张启煊:之前是有了模型之后去定制产品,比如从 GPT-3.5 到 GPT- 4,而其实一个新的方向是为了一个产品去定制一个模型,比如最新的 Sora 2。

它是为了社交媒体玩法,设计了可以植入人物多人合拍的功能,这些功能都是需要在网络侧引入的。再比如 Google 的 AI 图像生成和编辑工具 Nano Banana,也是从产品角度出发设计了一个新的网络结构。

那对应到 3D 生成领域,我们很早就意识到为了用户需求要在功能上进行设计,比如之前的 3D Control Net 和现在的分件,都是因为要满足不同行业的具体使用场景,而不是加大数据和参数让绝对质量变高。

3D 生成行业刚刚起步,因为 3D 行业不同行业对 3D 模型需求差异远要比图像跟视频高很多。比如工业设计都要 CAD 模型,需要的是曲面模型而不是网格化的,那就要求我们把模型变成曲面参数表达,每完成一个新的里程碑,就会在新的领域里发现新的客户去使用你的东西,这就是后面大家整个 AI 生成行业去迭代的方向。

蓝洞:最近美国李飞飞团队也发布了全新实时生成式世界模型 RTFM,一张 H100 就可以运行,他们主导的 3D 生成方向本质是学会了渲染的 AI,而你之前也提到未来看好的方向是用生成式的方式去做渲染,这其中有什么不同?

张启煊:我们其实不是一个赛道。李飞飞老师功成名就,她要考虑的是人类未来 10 年或 20 年后的东西,所以很前卫,他们的产品有点像视频生成,是颠覆现在图形渲染管线的事,其实不是为了这一代游戏和这一代的 CG 去做的,所以周期肯定更长。

而我们作为一家小初创公司,要先解决现阶段的生存问题。3D 生成是基于 Mesh 表达, 所谓 Mesh 表达就是由大量三角形面拼接而成的 3D 模型表达形式,它跟现在的 CG 还有游戏的工业是接轨的。

我看好未来生成式的方式去做渲染,我们也确实在布局,但跟我们现在的 Rodin 产品不太相关。之前大家想要呈现一个精致的视频画面,背后有 3D 模型、光照和材质等等要求,然后通过渲染引擎去得到最后的图像。而生成式 AI 改变了这个规则,图像可以直接降噪生成视频,但做不到非常精准,我们就希望把视频生成变成一个渲染器,去完成妥当的渲染。