关于AI世界的下一个突破
近期,业界普遍认为3D模型生成器将是AI技术的下一个重要发展方向。年初,DALL-E 2以其出色的图像创作能力惊艳了所有人。紧随其后,OpenAI在周二发布了最新的图像生成模型——POINT-E。这一模型能够直接通过文本生成3D模型,引发了广泛关注。
论文链接:/pdf/2212.08751.pdf
POINT-E的独特之处在于其高效的生成速度。相较于其他竞争对手如谷歌的DreamFusion需要多个GPU工作数小时,POINT-E仅需单个GPU在几分钟内即可完成3D图像的生成。这一突破性的效率使得它迅速成为研究的焦点。
网友们开始尝试不同的prompt输入进行测试,然而输出的结果并不总是令人满意。有观点甚至认为,POINT-E或许能够助力实现Meta的元宇宙愿景。
那么,POINT-E是如何工作的呢?它主要是通过点云——即空间中的点数据集来生成3D图像。简单来说,就是通过采集三维模型的数据,获取代表3D形状的点云数据。
从计算的角度来看,点云容易合成,但它们无法精细地捕捉对象的形状或纹理,这是当前Point-E的一个局限。为了解决这一问题,Point-E团队训练了一个额外的人工智能系统,将Point-E的点云转换为网格,以提升模型的精确度。
Point-E模型由两部分组成:文本图像转化模型和图像转化3D模型。前者类似于OpenAI的DALL-E 2和Stable Diffusion,能够在标记图像上训练以理解单词和视觉概念间的关联;后者则负责将一组与3D对象配对的图像进行学习,从而在两者之间实现有效的转换。
OpenAI研究人员指出,Point-E经过数百万个3D对象和相关元数据的数据集训练。尽管如此,它在某些情况下仍无法完美地将文本提示转化为3D模型。但相较于之前的技术,它在速度上有了显著的提升。
Point-E的运行机制首先是使用文本到图像的扩散模型生成一个合成视图,然后利用第二个扩散模型生成一个以该图像为条件的点云。尽管在采样质量方面还有待提高,但其快速的采样速度为某些应用场景提供了实际的权衡。
为了确保数据集的质量和通用性,研究人员使用Blender等工具对所有数据进行标准化处理和渲染。他们还采用了一系列后处理步骤来减少低质量模型的频率,并通过使用启发式方法对数据进行筛选和分类。
对于Point-E的应用前景,OpenAI研究人员表示,其生成的点云可以用于制造真实世界的物体,如3D打印。而通过额外的网格转换模型,该系统还有望进入游戏和动画开发的工作流程中。
目前市场上的目光仍主要集中在2D艺术生成器上,但Point-E的出现预示着模型合工智能可能成为下一个重大的行业者。在影视、室内设计、建筑等各个科学领域中,3D模型都有着广泛的应用。而Point-E的高效生成速度正好弥补了当前3D模型制造耗时长的不足。
研究人员也指出了Point-E现阶段存在的诸多挑战和问题。例如从训练数据中继承的偏差以及对创建潜在危险物体模型的防护不足等。但他们相信这只是个起点,希望Point-E能激发文本到3D合成领域的更多「进一步工作」。
参考资料:
/2022/12/20/openai-releases-point-e-an-ai-that-generates-3d-models/?tpcc=tcplusttwitter