总部位于旧金山的一家专门从事合成数据技术的初创公司Synthesis AI今天宣布,它已经开发出一种从文本提示创建逼真的3D数字人类的新方法。
该公司表示,其新的文本转3D技术在其在线平台合成实验室中展示,使用生成人工智能(AI)和视觉效果管道来产生高分辨率,电影质量的数字人类,可用于各种应用,如游戏,虚拟现实,电影和模拟。
Synthesis AI声称它是第一家以如此高水平的质量和细节展示文本到3D数字人类合成的公司。该技术允许用户输入所需数字人类的文本描述,例如年龄,性别,种族,发型和服装,然后生成符合规格的3D模型。用户还可以通过更改文本提示或使用滑块调整面部表情和照明等功能来编辑 3D 模型。
(通过文本提示生成的3D模型,图片来源:合成AI)
公司表示,其文本到3D技术是其更广泛使命的一部分,即通过提供完美标记的合成数据来训练机器学习(ML)模型来支持高级AI应用程序。合成数据是人工生成的数据,模仿真实数据,但不包含任何个人信息或敏感信息。
“我们在合成实验室中展示的文本到3D功能采用编程,API驱动的方法作为起点,添加了一个非常简单的基于提示的用户界面,并输出一个高分辨率的3D模型,该模型可以用作需要数字人类的广泛用例中的合成数据,”Synthesis AI首席执行官兼创始人Yashar Behzadi告诉VentureBeat。“合成实验室将我们的一些研发工作外部化为实际客户。
此公告是在合成人类和合成方案的推出之后发布的,这些方案代表了目前市场上可用的以人为中心的合成数据的深入产品。
通过生成式 AI 利用文本到 3D
合成 AI 结合了生成 AI 和电影视觉特效管线,以生成完美标记的合成数据来训练 ML 模型。这一发展标志着文本到3D数字人体合成首次以高分辨率电影质量得到证明,并有望加速3D应用的开发和降低成本,这些应用在各种行业中包括AR / VR,游戏,VFX,智能城市,虚拟试妆(VTON),汽车以及工业和制造模拟。
3D 模型的创建是一个多方面且错综复杂的过程,需要多个元素的相互作用,包括几何体、网格和纹理层。对于经验丰富的游戏和视觉特效艺术家来说,从以人为中心的角色和场景的人体模型开始历来是首选。这种方法通常比从头开始构建计算机生成的人类更快、更直接。
然而,制作高质量的人体模型是一项具有挑战性的壮举,需要专门的摄影测量设置。这些设置旨在在受控设置下捕获真人的多个角度,以创建原始 2D 图像。然后使用各种手工制作和优化的工具精心组合图像,以确保最佳质量。
通过文本到3D数字人体合成,该公司设计了一种创新方法,利用基于扩散的生成AI架构开发内部模型,以生成由性别,年龄,种族等关键参数控制的多种网格。纹理层是使用单独的生成模型创建的,该模型提供细粒度的独立控制。
“招募特定个人和获得豁免的后勤工作使创建多样化的人类变得更加复杂,”Synthesis AI的Behzadi告诉VentureBeat。“从廉价合成的数字人开始,比这两种选择中的任何一种都快几个数量级,更便宜。文本到 3D 功能可以按需生成高质量资产,为每个模型节省数周的时间和数千美元。
成实验室中新的文本到 3D 产品引入了基于提示的输入和编辑,使所有经验水平的人都更容易使用无代码 3D 生成 AI 功能。
“对于初学者来说,基于提示的生成和迭代为任何能够使用搜索引擎的人带来了创造力,”Behzadi说。“然而,我们认为早期采用者和高级用户将是所有形式的娱乐和媒体的技术艺术家,以及工业和制造软件的产品经理,他们希望用具有代表性的数字人类填充3D模拟。他们都是技术受众,但可能没有高级ML技能。
Synthesis AI 的专有库包含超过 100,000 个数字人类(或 ID),是用于训练模型的基础数据。该公司的其他产品,合成人类和合成场景,已经利用这个库来支持领先的计算机视觉团队,提供标记的训练数据,以支持面部识别功能、驾驶员监控、化身等的开发。
合成AI的下一步是什么?
合成实验室的推出代表了合成人工智能之旅的一个重要里程碑,使企业、工业和公共部门客户能够通过合成任何人、地点或物体来模拟现实。应用包括模拟和合成数据,用于在 VFX、AR/VR 以及媒体和内容创建中训练计算机视觉模型。
从今年第二季度开始,新的文本到3D数字人类功能将提供给一组选定的beta测试人员。
“向外部用户开放功能将使我们能够利用社区反馈来进一步完善底层生成模型,”Behzadi说。“从人类反馈中强化学习(RLHF)是不断提高底层模型性能和发现边缘情况的关键
Behzadi表示,通过将生成AI与电影视觉效果管道相结合,公司将能够合成世界,包括人类环境和物体。
“我们希望继续创新,降低开发人员创建资产和合成数据的门槛,以推动计算机视觉的最新发展,”他补充说。