对话 VAST 曹炎培：AI 3D生成从好看到好用还差几步？

在游戏行业，有一类工作很少被讨论，却吞掉了大量时间和预算。它不是玩法，不是关卡，也不是大家更常谈及的美术风格。而是美术管线中后段那些东西：重拓扑、展 UV、刷权重、绑定骨骼……一个角色高模雕得再漂亮，底层布线有问题的话，一做动画就穿帮。接下来就是漫长的回退：改拓扑，重新 UV、贴图、绑定、动画，牵一发动全身。这些活儿往往创意成分不高，但恰恰决定了一个 3D 资产能不能真正走进生产。过去两年 AI 图片和视频把大家的预期拉得很高，AI 3D 自然就成了下一个被期待的东西。做的人不少，好看的 demo 也不少，但真正要在生产里用这些模型的人心里清楚，从可用，到真正的好用、易用还有不短的距离。很多高模看着挺唬人，放进管线过不了第一关。底层网格是一团没有逻辑的碎面，编辑不了，实时渲染扛不住，动画就更不用想了。“长得像 3D ”跟“真正能用的 3D ”之间到底差了什么？这个鸿沟有没有人真的在跨？这期 405 游局播客邀请到 VAST 首席科学家曹炎培。VAST 成立于 2023 年，核心方向是 AI 3D 大模型和世界模型，近期刚完成由阿里和恒旭资本联合领投的 5000 万美元 A 轮融资。旗下产品 Tripo 已经在行业里有过不少落地应用。他们今年 3 月刚发布的 Tripo P1.0 主打的不是“更好看”而是“原生可用”，追求在 2 秒内直接输出拓扑干净、可以进引擎的标准低模网格。

能用只是第一步，资产还得能动、能交互。接下来要攻的是绑定和动画的自动生成，再往后是让资产本身具备行为逻辑。沿着这条线走下去，就到了世界模型：不只造东西，而是造一个东西们能在里面运转的世界。近期他们也公布了世界模型方向的早期研究，据说首款世界模型快了。曹炎培是这些模型背后的技术负责人，清华本科和博士出身，此前曾在腾讯领导生成式 3D 研究。在将近一个半小时的对话里，他用一个“纸扎灯笼”的比喻把 3D 资产的构成讲得挺明白：网格、拓扑、UV、骨骼各自在干什么，传统管线里为什么返工不断。也没藏着掖着现在的短板：拓扑的问题基本解决了，但绑定和动画离 production ready 还有段距离。不过正因为 3D 这条路确实更难走，他对路线选择的判断反而更值得留意：大多数研究者在押注视频作为通向世界模型的主路径，他觉得这是在拿降维后的投影当原生信号。而 3D 才是物理世界本来的表征方式，长期价值被严重低估了。而在路线之外，他还抛了一个更大的问题：要是一天能生成 10 万个资产，你还会做跟今天一样的游戏吗？

或许在 3D 生成的门槛真正降到足够低之后，互动娱乐领域会出现一些新的东西。

以下是游戏茶馆经授权整理的完整对话，内容经编辑。

从“看起来像”到“真的能用”， 3D 到底难在哪？

“图片视频只是一层 2D 像素的皮，而 3D 模型必须有精确的结构、合理的拓扑、骨骼，能在引擎里算物理碰撞，这中间隔着一条巨大的鸿沟。”

筱宁： 这两年大家看了很多 AI 图片、AI 视频，但再往前走一步，3D 其实是一个更关键也更难的话题——它不只是生成一个东西，而是要真正进入游戏和内容生产的流程。

今天我们想把问题问得更具体：AI 3D 到底难在哪？一条真正能进入生产的管线要经过哪些步骤？行业今天走到哪了？

曹炎培： 你非常精准地戳到了 3D 生成领域的痛点。过去一两年，不管是 Sora 还是 Seedance，还有各种图片生成和编辑的 AI，大家已经被震撼的视觉效果“惯坏了”，觉得 3D 生成不应该也是顺理成章的事吗？但做游戏或 3D 互动的从业者会知道，“长得像 3D”和“真正能在引擎里用的 3D 资产”之间，隔着一条很大的鸿沟。图片视频只是一层 2D 像素的“皮”，而 3D 模型必须有精确的结构、拓扑布线，有骨骼，能在引擎里算物理碰撞等等。

我们 Tripo 过去几年就聚焦这一件事：怎么让 AI 生成的不再是“中看不中用”的视觉幻象，而是真正能帮美术设计师、开发者在几秒内就生成可用于游戏引擎或 Maya 等 DCC 里做动画、做交互的工业级资产。前段时间我们也发布了 Tripo H3.1 和 P1.0，在底层架构上做了范式级的重构，很高兴借这个机会和大家深入探讨 AI 3D 背后的技术逻辑。

筱宁： 我们的听众里很多是游戏从业者，但哪怕是从业者，可能策划、程序会多一点，真正特别了解 3D 管线的人未必多。我们一点点拆开来聊，从底层看，一张图、一个视频和一个真正能用的 3D 资产，最根本的区别是什么？

曹炎培： 最核心的差异在于数据表征的本质不同。生成图片或视频，神经网络处理的是极其规则、致密的像素矩阵——AI 只需要在固定的格子里填上每个格子的颜色就行。但 3D 在本质上是空间里稀疏的、甚至是非欧几里得空间的结构。AI 不只要确立成千上万个顶点的位置，还要构建顶点之间的连接关系——也就是“网格拓扑”。

2D 模型学的是平面上光影的统计规律，现在已经能画出非常逼真的光影效果，但本质上是一种“视觉欺骗”，背后没有真正的三维实体。而一个物体要在三维空间里成立，表面需要连续准确的表示，此外还需要完备的结构和功能性。从拟合 2D 光影规律跨越到构筑严谨的物理和拓扑逻辑，不只是数学机理的问题，在神经网络和生成模型的设计上都需要更多考量。

筱宁： 网格、拓扑、UV、骨骼绑定，能不能用最不学术的话解释一下为什么重要？

曹炎培： 想象 3D 模型就是一个纸扎的灯笼。网格就是灯笼外壳的纸片拼出的形状。拓扑就是纸片怎么拼接连接，对应到人体就像肌肉走向。拓扑为什么难、影响为什么大？因为拓扑不好模型就没法动，就像肌肉乱长一弯胳膊就撕裂了，做动画时模型会像一团纸被揉碎。 UV 就是怎么把立体表面像剥橘子皮一样摊到 2D 平面上——UV 太碎的话画贴图的艺术家就崩溃了，表面支离破碎，边界永远对不上。骨骼绑定（Rigging）就是给灯笼里面塞一层能动的金属骨架，规定哪几根骨架牵扯哪几块纸片，让灯笼动起来。

筱宁： 还挺形象的。先把 AI 抛开，传统 3D 管线中一般怎么工作？哪些环节最花时间？

曹炎培： 以次世代游戏流程为例：先有原画设定，然后雕刻建模师构造极其精细但面数很高的“高模”。再做重拓扑，在高模上用精简规则的多边形布线覆盖形成“低模”。有了低模就展 UV 、画贴图，再施加骨骼、刷权重，最后交给动画师。

最花时间的就是重拓扑和绑定，艺术创意成分很少，本质是繁杂的人工劳动。而且绑定和动画是非常容易产生痛苦返工的节点，很多时候只有把资产交给动画师让角色动起来，才发现弯腰或打拳时拓扑布线有问题。因为整个是线性工作流，改了拓扑就要重新 UV 、重新贴图、再绑定、再做动画，牵一发动全身。

不让人给 AI 擦屁股，一个模型从生成到进厂的全过程

“P 1.0 背后的底层哲学是： AI 现阶段需要适应人类积累了几十年的工业标准，而不是让人类给 AI 生成的模型擦屁股。”

筱宁： 前两年讲 AI 3D 的时候，会有一种感觉：所有人都在做你说的“第一步”，就是生成精美的高模。但按你刚才的解释，好像大家还没深入到真正核心的问题？

曹炎培： 你这观点非常对。我们首先针对的就是前两年被很多人忽略的网格拓扑问题。外行只看模型像不像，但工业界的模型师或技术美术拿到模型第一件事，可能就是按快捷键切到线框模式看底层线框对不对。如果 AI 给到的是一团密密麻麻没有逻辑的三角形，这是一个非常重的资产，编辑和实时渲染的性能挑战都很大，动画阶段也很难直接用，高模不符合现有的工业管线。

我们的 P1.0 想解决的就是怎么生成管线可用的低模，我们叫它“原生可用”的资产。到今天我们觉得 AI 3D 确实也是时候从“只能生成概念验证的高模”跨入“真正的生产力兑现期”了。

P1.0 背后的底层哲学是：AI 现阶段需要适应人类积累几十年的工业标准，而不是让人类给 AI 生成的模型擦屁股。模型生成出来那一刻，就是四边形为主、布线合理、造型准确的标准网格，出图即用。从高模到拓扑，再到 UV 和贴图，基本可以直接丢进 UE 引擎或 Maya 里做动画、做模拟。

筱宁： “原生可用”意味着它能在几个关键环节被编辑，以及可以直接进入生产流？

曹炎培： 是的，更多是直接进入工作流，而不需要很多人为修复。如果 AI 花 2 分钟甚至 10 分钟生成了一个模型，但因为拓扑乱七八糟，还需要非常有专业修养的美术花大半天清理顶点、重新拓扑，那 AI 到底是提效工具还是增加返工成本，就很难界定了。

筱宁：我听到过两种解决 3D 流程的思路：一种是单点逐个突破，另一种有点像一次性覆盖所有环节。这两者的优势分别在哪？

曹炎培： 我的看法是：单点上肯定是突变的——某天某个技术突然就能用了；但整个管线的融入是渐进式的。比如手动重拓扑和手工展 UV 这类机械性工作，P1.0 已经很逼近突破点，可能很快就会被 AI 接管。但在较长时间里，生成的模型依然需要以标准格式在标准流程之间流转。我们不想完全改变大家使用引擎的习惯，而是替代掉每个环节产出资产的方式。技术突破是突变的，但每个突破回归到生产中，我们还是希望渐进融入管线。

筱宁： 那这种渐进融入会怎么发生？ AI 和人会是什么样的协作方式？

曹炎培： 我们从两方面思考。一方面，对专业流程，希望用 AI 把拓扑、绑定这种最没有艺术创意、最繁复的环节尽可能彻底替代掉，让大家的精力聚焦在真正需要创意的环节上。

另一方面，AI 3D 技术更广阔的空间可能在于之前没接触过 3D 管线、甚至不知道什么是 3D 模型的大众。一旦 AI 能覆盖整个管线，终端用户根本不需要图形学的概念，不需要知道美术资产的制作流程。就像你从网上下一个 icon 不会关心是 AI 还是 PS 做的，下一个 SVG 动画也不会关心怎么来的。3D AI 在端到端能力上也需要给普通用户带来这种极低门槛的改造，让大家不觉得 3D 是一种神秘或小众的表现形式，才有可能涌现出更广泛的 UGC 生态。

筱宁： 今天真正会用到 3D 资产的还是动画、游戏、独立开发者。什么样的人接受了 AI 3D？什么样的公司还比较保守？

曹炎培： 现在获得最大价值的肯定是中小型甚至独立游戏团队，以及做 UGC 平台或程序化生成的团队。大型 3A 团队有庞大美术预算，对改变管线的态度比较谨慎。但中小团队很多时候是“点子大于产能”。美术资源匮乏是限制他们快速发展和表达核心创意的巨大瓶颈。AI 3D 给了他们一个很好的杠杆，以极低成本构建出原本需要几十人美术团队才能填满的世界。

以 P1.0 来讲，在环境道具（props）、中远景建筑组件、家具，甚至简单 NPC 角色和载具上，基本已达直接可用水平。下一步也希望触及非常复杂的动画尤其是面部动画，以及带绑定动画的游戏主角。如果能攻克这个门槛，3A studio 的接受度也会慢慢提升。迭代 3D 生成技术两三年来，确实能感受到随着质量提高，越来越多上游用户发现其中的价值。

筱宁： 以前做游戏有个感觉：美术资产整体是 100 的话，最头部的 20%：角色、CG、核心动画，可能占了 80% 的预算，剩下 80% 的填充只消耗 20%。不攻克最核心那块，是不是就吃不到大头？

曹炎培： 对 3A 大制作来说确实关键，但我们长期同等看重怎么拉低门槛。世界上此时此刻真正有能力制作游戏的人非常少，属于金字塔尖。让更多创作者进来，就需要把接触这类技术的人群无限放大。除了不断攻克最精细的生成，也需要在可用性、速度等方面让大家觉得生成 3D 资产是一件没有门槛、没有成本的事。

筱宁： 先把专业线聊更透一点。核心资产不仅仅是 3A，很多二游或相对大型游戏的核心角色、面部、动画也属于核心资产。要突破这个天花板，现在还缺什么？

曹炎培： P1.0 已经 cover 中前段，高模到低模到拓扑到初始贴图。后面最难、我们也在花很多精力解决的是动力学绑定，AI 不只要理解几何造型，还需要理解三维物体背后的机械结构和物理运动机理，处理的信息广度更大，数据积累和清洗也更费时间。

关键是，不只看资产精度本身，而是所有组份都要是全的。用户拿过去就能做操作、做动画。现在绑定和动画方面，可能还没完全达到 production ready 的水平，但我相信会以很快的速度迎来突破。

筱宁： 这件事不止一家在做，如果真做到了会变成通用技术吗？大家竞争的到底是什么？

曹炎培： 从现在的行业阶段看，AI 3D 正从前两年纯算法论文的百花齐放走向定义工业数据标准的阶段。谁能提供最稳定、最标准、最快速、最容易被现有引擎吸收的数据形式，就最有可能占据生态链的咽喉位置。

这里面涉及经典的创新者窘境。有海量游戏业务的大厂有好的技术团队、算力和资金，但内部 AI 团队背负沉重的历史包袱，要适配已有甚至陈旧的管线，比如用十年后的 AI 服务十年前的游戏制作流程。特定管线和业务逻辑的强绑定会让研发陷入困境。

而像 VAST 这样独立的平台，优势在于技术中立性和敏捷性——不为某款过去的游戏打补丁，不服务某个特定制作流程，可以从第一性原理出发，直接用最前沿的算法去定义未来 3D 生成最应该做成什么样。

更长期来讲，我们始终在攻克的核心命题是：如何瞬间直接生成一个可交互、具备底层逻辑的 3D 世界。一个完美的 3D 资产应该有皮、有肉、有骨，还有脑。过去行业生成的模型大部分只做到了表皮——有基本视觉元素，再往下都缺失。P1.0 通过原生网格解决了“肉”——严丝合缝的拓扑结构。绑定动画属于“骨”——让模型自带运动学和物理结构，关节在合理位置，能响应用户交互。“脑”就是资产本身可能就是个 NPC 或 Agent，在环境里和玩家交互、Agent 之间交互。

一步步从纯几何形状生成走向带运动学和交互逻辑的资产构造，这是我们从开始就一直想做的技术目标。

筱宁：按你刚才的说法，整体管线逻辑都会有变化。3D 管线投入了大量人力，作为从业者自然会好奇：什么不会被替代？什么容易被替代？

曹炎培： AI 发展这么快，不只美术和游戏从业者，连大家以前觉得处在智力顶端的程序员、研究员都有很大危机感。这个话题需要长期讨论。但回到 3D 管线本身，技术发展的意义和趋势，也是我们希望打造技术的方向，就是把大家从繁杂的重复中解放出来，把精力发挥到真正需要创意和想法的方面。即使限定在 3D 管线或游戏行业里，未来真正能体现自身价值和差异化的，依然是想法、创意和行动力。

两秒出模型之后，当速度快到改变创作方式

“如果有人告诉你可以在一天内生成 10 万个资产，你会构造什么样的游戏？和需要半个月才能获得一个主角资产相比，大家会做很不一样的选择。以前根本没有前面那个选项。”

筱宁： 你提了好几次速度，你们为什么这么强调速度？

曹炎培： 对我们来说速度不是宣传点，是从公司成立以来就一直追求的目标。速度的量变在 3D 内容创作中会引发质变。 现在最核心的意义在于把试错成本几乎降到零。生成一个模型需要 10 分钟，创作者的思路就是被打断的。但 P1.0 的 2 秒生成速度实现了实时反馈，你可以瞬间验证 10 个不同概念，留下最好的。

这里面其实是解放了创作者的想象力，想到什么不再需要很大阻力。就跟现在大家写程序一样，有了想法立即扔给 Codex 或 Claude，写出来再看对不对。3D 也一样，只有把生成速度和由速度带来的心理压力无限降低，才有机会引发真正的质变。

对 UGC 生态来说速度更至关重要。专业开发中速度带来效率提升，但 UGC 里速度提供的是最核心的即时满足感。普通用户没耐心等 10 分钟进度条，只有 AI 能像敲回车一样瞬间生成 3D 实体，用户才有持续交互和创作的动力。

筱宁： 我觉得速度这件事，看成生产还是消费，心理预期完全不一样。UGC 那个逻辑我蛮认可的。但回到生产端，以前做一个 3D 资产以天、以周为单位，降到 2 秒很极端。到底什么速度已经带来质变了？需要这么极端吗？

曹炎培：2 秒主要做到的是原生网格拓扑生成，后面贴图材质、绑定动画仍需人工参与或 AI 与人协作。并不是端到端几秒内生成完整资产，但这是我们接下来非常想追求的目标。是不是真的需要秒级？也许未必，但生成越快，大家越会跳脱以前时间限制带来的思维约束。

如果有人告诉你一天能生成 10 万个资产，你会构造什么游戏？和需要半个月才获得一个主角资产相比，大家会做很不一样的选择，以前根本没有前面那个选项。即使在专业领域，速度的量变依然会带来制作范式和思路上的质变。

筱宁： 作为曾经的游戏打工人，对有创意的开发者这一定是正向加持。但对打工人来讲好像更卷了，以前一周做一两个资产，有了工具加持可能一天要做一万个？

曹炎培： 我倒不一定觉得更卷。有了 AI 能力后制作内容的形态也会变化。有点像以前在电视台做视频的人和今天在 MCN 做短视频的从业者——核心个人价值可能一样，但内容形态更多样了，除了长篇还有短剧、刷不完的短视频，确确实实有更多才能发挥的空间。至于是不是更卷，那是复杂的社会和经济问题，不能完全归因于某个单点技术。

筱宁： 你们说 UGC 的时候，更在乎降低开发者门槛，还是真的一步到位到大众人人可生成？

曹炎培： 最终目标是更纯粹的 3D UGC，这是一开始做这家公司的原因。但每个降低门槛的技术一定程度上也能降本增效，你叫它“沿途下蛋”也好。3D UGC 到底长什么样，绝大多数人也没定义清楚，甚至能不能实现大家都抱着怀疑态度。所以我们永远朝很高的目标做，但也踏实地让每个技术在今天的行业里发挥应有的作用。

我们一般介绍 Tripo 的时候，不太会讲说“我们是帮游戏公司省时省力的 3D 工具公司”。定位在工具，它的价值就回到降本增效了嘛。我们实际在做的是解锁下一代 UGC 或全民互动娱乐平台的底层基础设施。

筱宁： 降门槛和搏上限有优先级排序吗？它们在技术难点上是同一方向吗？

曹炎培： 在今天的产业条件下它其实是一回事。降门槛的下限是依然要 pipeline-ready。追求更高质量的同时它依然是 pipeline-ready 的资产——一旦 pipeline-ready，不管是游戏引擎还是 vibe coded 小游戏，对资产要求都一样。有了 pipeline-ready 的资产生成能力，组份越来越全，门槛自然在降低。至少此时此刻，这两个是一回事。

赌 3D 而不是赌视频，一个关于未来的不同押注

“现实世界本身是 3D 的，视频中的 2D 像素只是三维世界压缩降维后的投影。坚持原生 3D 路线，其长期技术延展性被 AI 研究领域大大低估了。”

筱宁： 你一直在讲游戏引擎，但在视频模型发展的时代，大家也在想游戏引擎本身是不是会变化？存不存在一种可能性，未来有些游戏类型脱离引擎就成立？

曹炎培： 完全有可能，我们自己也花很多时间想和探索。交互式内容放眼未来几年，不会只有传统游戏形态一种。比如现在确实有可交互的世界模型形态，从一张画面开始，通过视频模型和画面交互，在里面探索甚至对环境产生影响。

另外随着 AI Coding 和 Agent 能力增强，是不是需要一套让 AI Agent 用起来更容易的新引擎？这大概率是未来趋势。现在 vibe coded 游戏都用 Three.js，从我的视角看就是因为 AI 没有很好的能力操控 Unity、UE 这样重的引擎，最直接的方式就是从头写 JavaScript。

筱宁： “世界模型”这个词这半年越来越热，讨论度很高。你怎么定义世界模型？你们有什么差异？

曹炎培： 我认可学术界通用定义：给定当前状态和一个行动，预测环境下一个时刻的状态。 但大家在各自关心的领域实践这个思想。

我们和行业里最火热的纯视频生成路线有所不同。纯视频生成更多是个光影模拟器，学到的是光影变化，对背后三维世界的规律很难保证。这也是大家诟病视频世界模型常有常识性或逻辑性错误的原因。

我们从一开始瞄准的就是让视频模型能在多人并发互动、机制和行为高度可控的环境下发挥作用——支持多个玩家和智能体同时对环境施加影响。更重要的是，世界里的机制和行为必须高度可预测和确定性——赛车游戏里 A 超过了 B，就是在 B 前面，不能因为某一帧跳变了位置又发生变化。纯视频模型从底层机理上很难保证这种唯一性和确定性。

当然有人会说，视频世界模型那种“走过的地方回头不知道变成什么样”也是一种新奇体验。但我们觉得这种新奇感本质上是建立在视频模型记忆缺陷上的权宜之计，很难帮助真正想控制、想创作的创作者去构造能被反复体验的内容。我们做世界模型的思路还是：支持多人互动，世界的机制和未来是可预测、唯一确定的。

筱宁： 纯视频生成的逻辑性不是真正意义上的理解，小误差会积累。要达成你说的目标，好像隐含着模型推理中要有真正的逻辑性串联？

曹炎培： 完全正确。所以我们需要脱离单体视频模型的范式，把推演和画面呈现都交给同一个模型，在当前能力下很难保证高可控性。我们会在推理阶段引入更多显式 state，比如 3D 的或代码的。还是蛮早期的探索，但路线清楚后会很快迭代验证。

筱宁： 为什么不等别人做出来直接用？

曹炎培： 因为大家对世界模型做成什么状态、先攻克什么问题，技术选择非常不一样。主流应用场景可能是机器人控制和仿真，这和我们关注的未来三五年应用很不同，会推出不同技术路线。而且 Tripo 一直解决的是数字世界里的“状态”——生成资产就是生成状态，但资产怎么演化、状态之间怎么迁移，正是世界模型要解决的。我们正好走到了这个档口，世界模型又是一个潜力和想象力很大的技术方向。

筱宁： 未来一到两年，你们最关键投入在哪？

曹炎培： 在 AI 领域两三年规划真的非常长——算法机理、算力、神经网络构建、多模态研究范式可能每几个月就发生一次大重构。对我们来说关键的是保持高技术敏锐度和高敏捷决策能力，不对某种路线产生强路径依赖，当新趋势出现时能非常快地调整方向，从技术重构到产品级模型再到产品能力，走非常敏捷的迭代路线。

脑子里有两三年后的状态大概是完成从 3D 资产生产力工具向空间计算或 UGC 交互底座能力的跃迁——但实际上大家更关注的是未来两三个月甚至几个礼拜的快速迭代。

筱宁： AI 3D 直接高质量进入管线需要多长时间？两三年可以看到吗？

曹炎培： 以今天的技术动量看，两三年甚至有点长。到明年这个时候，大家完全可以期待 AI 生成的资产就有很好的贴图绑定加上拓扑，可以当成完整态游戏资产来用。

去年这时候大家对高模生成本身的质量都有很多诟病，随便生成个车形状不准，手办都达不到想打印出来的程度。但十几个月后，高模已经逼近人类艺术家手工雕刻的水平，拓扑低模也能做得很好。到明年，“有皮有肉有骨有脑”的资产应该能被 AI 端到端生成出来。

筱宁： 站在今天，AI 3D 什么被高估了？什么被低估了？

曹炎培：被高估的还是视觉拟真。 大家在网上看到很逼真的 3D 生成结果，但那是以视频形式呈现的。从渲染出的高模角度看确实精细，从业者都有这种感觉，普通大众更看不出门道。

被低估的是 3D 信号作为物理世界原生表征的终极价值。 在研究界，3D 这种模态被很大程度上看衰。很多学者引用“苦涩的教训”说 3D 很难 scale、不 general、有很多人工设计，认为赢家一定是更纯粹依靠海量视频数据的路径。我觉得这种视角有很大局限——它隐含的框架受限于传统计算机视觉任务的思维。

回到第一性原理：2D 像素矩阵和具有绝对空间尺度的 3D 信号哪个更原生？答案显然是后者。 现实世界本身是 3D 的，2D 像素是三维世界压缩降维后的投影。P1.0 直接在三维结构中学习和生成，不是引入人工设计，而是让 AI 直接拟合物理世界原本的信号。坚持原生 3D 路线，其长期技术延展性和持续性被大大低估了。

筱宁： GDC 期间 Simon（VAST 创始人）跟我说，很多人还没真的体验过 AI 3D，哪怕在 GDC 这样开发者最盛大的大会上。这是不是也是一种被低估？

曹炎培： 我个人恰恰相反，比较乐观。一个显然有用的东西大家还没接触到，意味着未来还有非常大的空间。 为什么会这样也好理解，我们一直到 P1.0 出来才能很快拿到拓扑正常的资产。之前第一批接触的人试了发现是高模，觉得用处不大就没动力推广。有了 P1.0 之后，大家发现出来的真是 game assets 网格，很多海外客户非常主动地来接入 API，试用后自然产生订阅。这确实是一个蛮大的转折点。

筱宁： 如果只用一两句话，你希望外界怎么理解 Tripo？

曹炎培： 我们希望大家把 Tripo 理解为未来全新 UGC 互动平台和 3D 内容生态的造物基座。不只是省时省力的 3D 创作工具，而是为下一代交互形式和 3D 内容生态打造了一整套基座能力。不管是 3A 大型团队还是没有美术基础、只有一腔热血和满脑子点子的普通大众，都能以很低的门槛实时构筑脑海中的 3D 世界。

筱宁： 这是一个超大的宏图。

曹炎培： 不否认这是很高的目标。但我们团队自始至终就是希望瞄着很高的目标不断迭代，而不是把自己限定在一个很快就能望到头的未来。

原创文章，作者：游茶妹儿，禁止转载：https://youxichaguan.com/archives/193270