文字生成3D内容，离元宇宙又近了一步？

前几天ChatGPT以前所未有的速度火出圈，短短五天用户即突破百万级大关，甚至马斯克等大佬也为之站台，一时间ChatGPT真可谓风头无两，顺便带动互联网赛道也越来越热闹了。现在用文字生成图像已经不新鲜了，最近OpenAI直接用文字生成3D模型，对于元宇宙从业者这可是鼓舞人心的。OpenAI刚刚发布的“Point-E”令3D内容创作门槛又降低了，这次又将为AR、VR、元宇宙行业又带来哪些新鲜玩法呢?

目前有多家AI都可用于生成3D模型，例如谷歌的Dreamfusion和英伟达的Magic3D。不过Point-E的速度要快得多，并且在单个英伟达GPU上，在一到两分钟内即可生成3D模型。Point-E是从文本描述中生成3D点云，这些点云可以生成3D虚拟产品模型并展现在观众面前，单位时间内的效率比别家的同类型产品高了数百倍。

3D建模在许多行业特别是工业领域内应用广泛，也是目前各家智能设备厂商和工矿企业都激烈争夺的热点商机，比如VR和AR的基本内容、元宇宙虚拟空间产品的素材以及Meta等企业标榜的元宇宙愿景都需要大量的3D建模。然而创建3D模型不难，难的是保证产品的质量。建模本身就是极为费时费力的过程，虽然现在有多种APP提供相关服务，但本质几乎都是换汤不换药，而且质量还参差不齐，因此现在的3D内容市场真可说是鱼龙混杂。

此前，将AI生成内容扩展到完全不受约束的3D场景始终是难以解决的问题。这背后的原因较为复杂，既有现实世界的物理障碍，又有AI算法的掣肘，比如摄像机位置就经常受限。虽然对于单个对象，每个摄像机位置都可以映射到一个圆顶，但在3D场景中，机位就会受到对象和墙壁等障碍物的限制。原来曾介绍过的企业容积视觉科技，他家的产品虽然能提供足够的沉浸感，但摄像机的成本就很高，每拍段视频都需要调动多台摄像机相互协作。去年末时，谷歌通过Dream Fields首次展示了新AI系统，将NeRF生成3D视图的能力与OpenAI的CLIP评估图像内容的能力相结合。而苹果在今年夏天公布的GAUDI则更进一步，实现了能够生成沉浸式3D场景的神经架构，也可以根据文字提示创建3D场景。这套AI的运算逻辑与公式极为复杂，这里不展开说。虽然生成的场景视频质量不敢恭维，但也的确展示了AI在未来新的可能与发展方向，或许发展到下一阶段就能看到更多惊喜。而且近半年来从未听说这套AI已经实装到任何一款iPhone，iPad或Mac上，明显不是苹果一贯的作风。或许现在苹果内部对这套AI也尚未达成统一意见，至少目前没有商业化的价值。

虽然现在各种各样的3D建模APP与产品令人应接不暇，时常能看见《XX慌了》或《XX将要失业了》之类的标题党新闻，也有人说2023年将是3D建模产品大爆发的一年。本人在这里提醒一下，去年就有人说2022年将是元宇宙大爆发的一年，现在2022年即将翻页，本人回想了一下，元宇宙爆发了吗？在哪里爆发？以何种形式爆发？本人愚见，未来几年元宇宙根本谈不到爆发，能有进步就可以了。同样的道理，本人从来不看《XX慌了》或《XX将要失业了》之类的信息垃圾，也根本不相信AIGC会取代人类作品。

客观来说，用文字生成3D内容的确是一大发展，但它的本质还是属于AIGC，而关于AIGC本人之前已经泼过冷水了，当时举了个例子，说“现在的AIGC就像超市里的零食，虽然看起来琳琅满目品种丰富，但一尝就是满嘴的添加剂，有的甚至仅靠眼睛就能区分。”即便是火出圈的ChatGPT，它真的就那么智能吗？今天本人问了它和Siri同样的话“请讲下最近的元宇宙新闻”，这是二者的回答截图，相信仔细看过后各位就能判断出究竟谁是人工智能，谁是人工智障了。

另外，关于“降低门槛”这个说法本人也有点看法想分享。回顾近几十年的时代发展，特别是以PC为代表的第三次科技革命后，科技类产业的发展基本都遵循一个规律，即门槛是保证质量的前提。一旦降低门槛很容易导致病毒式传播与野蛮式增长，假如产品本身质量过硬倒也无可厚非，可如果产品本身质量就不敢恭维那无异于把自己打造成垃圾中转站。

这里举几个例子。之前在介绍以电脑图像技术与引擎等为代表的信创产业时本人曾说过，电脑图像技术的发展在很大程度上得益于约翰-卡马克的一人之力，既是因为他的天才头脑能推动技术不断发展，也是因为他从小就坚持的“反软件专利主义”降低了门槛，使电脑图像技术的从无到有，从小众硬核到风靡全球用了还不到十年，吸引了成千上万的粉丝入局，现在很多电脑图像引擎都或多或少的与他有关。但是这一切有个前提，即和卡马克搭档的设计师约翰-罗梅洛也是数一数二的天才，能将卡马克的技术性能发挥到极致，以绝妙的形式展现出来。他们二人打造的游戏质量是无可挑剔的，每款游戏往往在上市前就能引起轰动，发售首日公司即盈利也是家常便饭，后续长期的火爆自然顺理成章。其中不少游戏直到现在全球还有许多玩家乐此不疲（本人就是其中之一），玩家群体间自发组成的社区与电竞比赛规模甚至比官方的更大，又吸引了更多的粉丝，推动了产业的不断良性循环发展。另外最近卡马克最近不再研究VR图像技术了，而是转向AI，以另一种方式推动元宇宙的发展。

有正面例子自然就有反面的，就说很多人都沉迷的短视频平台。进入门槛够低吧？然而有没有人能告诉本人其中真正有价值的内容占比是否超过1%？原因很简单，平台自身就没什么过硬的实力或特质，也没什么技术含量，再降低门槛，那吸引到的肯定是以吃瓜看戏为主的，真正产生的价值少得可怜也就不意外了。本人家中有几位亲戚，对各种短视频平台已经痴迷到神魂颠倒的地步，整天手机不离手，一天充电三四次还不够用，还时不时给本人传播。本人在几年前就对短视频这种形式颇为反感，因为有更好的信息获取渠道所以对其中的信息垃圾从来都毫无兴趣。后来想想那几位亲戚，再想想他们平时的行为，很快就释然了，所谓“物以类聚人以群分”罢了，无聊的人有无聊的爱好不是很正常吗？

这两个例子相信有读者也亲历过，那么现在还觉得“降低门槛”就一定是好事吗？前面说过，本人研究过三年左右的AI，也从不相信AIGC能取代人类。现在请各位观察一下，动不动就发文叫嚣《XX慌了》或《XX将要失业了》的可有一个是苹果或微软那样的正规大牌科技公司？基本不是营销号就是标题党。现在虽然网上有各式各样的AIGC产品，但据本人观察，各大软件商店里此类APP的下载量基本都在两位数附近徘徊，大部分都是浑水摸鱼式的娱乐性产品。对此现象，本人认识的一位业内大佬曾一针见血的说：“这种软件都是偷别人的成果还嫌别人太小气的，只能说是因为侵权的门槛太低了。”

至此，本人相信各位已经有判断了，用文字生成3D内容的确是前进了一步，但还不至于引起天翻地覆或者爆发式发展，丰富产品倒是可能的。另外关于ChatGPT之类的AIGC产品，网上的很多展示都有演双簧的嫌疑，问的问题都是妇孺皆知的，很容易通过数据库完善。本人大学专业是学语言的，在语言学里有种奇怪的现象，即判断一种语言是否学到家的标准是看会不会用这种语言骂人和吵架，这种标准虽然不如四六级证书那样可量化但更符合人性，也更接地气。类似的道理，前几年有人提出过AI的标准应该是学会抬杠等行为，本人对此不置可否。不过很明显的，现在的AI虽然比过去有了很大发展，但还是通不过图灵测试，原因之一就是因为人的很多情感没法用语言或逻辑精准描述，更不可能教给AI了。

本文链接：https://www.aixinzhijie.com/media/6794930
转载请注明文章出处

AIGC

免责声明：本文不代表AI新智界立场，且不构成投资建议，请谨慎对待。

版权认证：本文已在保全网存证确权，侵权必究！

登录账号发表你的看法，还没有账号？立即免费注册

下载

阅读