深度丨AIGC,浪潮凶猛

来源:21世纪经济报道

见习记者李强

图片来源:由无界版图AI工具生成

AIGC(用AI技术自动生成内容)的应用竞赛,正在将AI重新带到聚光灯下。

12月1日,美国科技企业OpenAI发布了聊天机器人ChatGPT,开启免费公测。

好奇的人们提出各种千奇百怪的问题,观察ChatGPT的反应,比如询问学术问题、写请假条/散文/rap、检查和修改代码BUG甚至诱骗ChatGPT规划如何“毁灭”世界。

ChatGPT的表现可以用惊艳来形容。一方面,ChatGPT给出的结果准确性极大提升,在绝大部分知识领域,ChatGPT都能够给出专业性的回答,无效回答很少。比如被问到哥伦布2015年来到美国的情景时,ChatGPT会直接表示哥伦布不属于这一时代,并且ChatGPT的道德约束性也表现良好,能够主动辨别不适合的话题并予以回避,甚至做正向引导。

另一方面,ChatGPT在与用户的交流中展现出很强的理解能力:ChatGPT在写“命题作文”时,用户可以随时打断,并要求ChatGPT按照用户意图进行续写;当用户故意使用缺乏前后文的代码片段“刁难”,让ChatGPT指出为何程序无法正常运行时,ChatGPT会表示,在用户不提供代码具体功能以及更多代码内容的情况下无法回答问题。

前所未有的人机交互体验,让用户们情不自禁地晒出与ChatGPT的对话,分享自己的奇妙体验与震撼感,技术的魅力也让ChatGPT的话题犹如病毒般蔓延。

5天后,OpenAI CEO Sam Altman发文表示,ChatGPT用户达到100万。

在用户端热火朝天的“开发”中,ChatGPT另一面的不足也迅速暴露。比如,ChatGPT“一本正经”的回答中也会存在知识性错误,这些更隐蔽、更具迷惑性的错误,让ChatGPT显得“有趣”又危险。

ChatGPT走红后,程序员版“知乎”Stack Overflow很快宣布暂时禁止用户分享ChatGPT生成的回复,原因是大量用户尝试用ChatGPT回答用户在平台上提出的问题,而这些快速生成的大量内容,很多第一眼看上去正确,但如果具备专业知识,稍加检查就能发现其中存在错误,这对于寻求正确答案的小白来说是致命的。

不过,更多的业内观点认为是瑕不掩瑜,并将ChatGPT视作AIGC发展中的重要里程碑。国盛证券在研报中指出,这些问题来自训练过程和数据集的局限性,随着进一步强化训练,完善模型质量,未来迭代值得期待。

“尽管ChatGPT确实有一些糟糕表现,比如在面对简单计算题时,ChatGPT却给出小作文式的求导过程以及错误的结果,但这不能因此否定ChatGPT,因为这些本来也不是ChatGPT要干的活,ChatGPT的主要任务在于让机器理解人类语言。”古典互联网投资人、内容行业观察者庄明浩对21世纪经济报道记者表示。

七十年前,“人工智能之父”图灵在《电脑能思考吗?》中提出,如果人无法判断屏幕的另一侧究竟是人还是机器,就证明机器具备人一样的智能,这个经典的图灵测试如同北斗星,指引着AI行业的工作者们不断前进。

今天,ChatGPT展现出的极具迷惑性的表达能力,让这个曾经遥不可及的未来似乎正变得模糊可见。

AI需要新叙事

1985年,IBM开始了象棋超级计算机“深蓝”的研发。1997年,深蓝终于战胜国际象棋冠军卡斯帕罗夫,轰动一时,不过深蓝并没有在之后激起更大的涟漪。

原因在于,深蓝的技术思路是通过在系统中整合象棋游戏中的规则和经验,来模拟人类专家从而进行逻辑推理和判断:深蓝输入了一百多年来优秀棋手的两百多万场对局,来战胜卡斯帕罗夫。

深蓝的这种技术思路被称作专家系统,让AI开始能够解决一些“知识处理”等方面的实际问题,不过,这种被称作专家系统的方法弊端很明显,深蓝会下象棋,但也只会下象棋,技术拓展性很差,适用的领域也非常狭窄,更新迭代和维护成本非常高,这让专家系统在短暂点燃市场热情之后又迅速降温。

同时期,另一个思路也被提出来:借鉴生物神经系统,创建人工神经网络,尽管后来被证明是极具潜力的,但在当时的条件下,走这条路线的AI显得既不聪明(算法效果差),也不努力(算力低下),而且连基本的学习资料(大数据)都没有。见不到效果,神经网络的思路也很快被弃用。

于是,上世纪八十年代中期,专家系统与神经网络掀起的第二次AI浪潮很快进入寒冬。

2006年,Google的首席AI科学家杰弗里·辛顿(Geoffrey Hinton)第一次提出深度学习的概念,带领AI行业重新回到神经网络的思路上,同时算法、算力以及大数据不断跟进,逐渐松绑的神经网络开始发挥其威力,由此掀起第三次AI浪潮并延续至今。

CMC资本董事总经理易然对21世纪经济报道记者解释道,机器学习最开始主要完成回归、分类、推荐、排序等以“相似性”为核心的数据类应用,在内容和商品推荐、广告算法等应用效果非常好,从2014年、2015年开始,各种深度学习的框架得到广泛应用,以视觉语音识别、NLP(自然语言处理)等为代表的感知类应用的大发展,并且深入到了广大的科技类公司的业务中。

以计算机视觉为例,这也是AI技术商业化落地进程最快的赛道。2014年,旷视科技成为支付宝“刷脸支付”的技术提供商,云从科技帮海通证券做远程开户的身份认证系统,依图科技凭借“蜻蜓眼系统”帮助公安部门加强安防;2015年,商汤科技利用人脸识别帮助中国移动完成3亿人手机实名制,这一轮技术爆发中的独立创业公司代表“AI四小龙”就此完成起家。

不过,单凭技术的应用,AI行业似乎还缺乏一些声量。

2016年,AI炫技再一次拿棋手祭刀,AlphaGo击败围棋世界冠军李世石,让全世界都去琢磨AI的未来。从这一年开始,各大企业争相布局,初创独角兽涌现,资本热钱迅速流入,掀起这次AI浪潮中的最大浪头。

据《2021年人工智能行业发展蓝皮书》统计,过去9年AI领域IPO前的股权投资行为,共发生2048起,投资金额达4800亿元,投资的高峰期集中在2015年至2018年。

但大多数创业公司的AI应用,迟迟走不出研发环节,业绩亏损、估值虚高的经营状况看不到改善机会,资本开始退潮。蓝皮书显示,2018年全国单笔平均融资投资额为4.1亿元,2019年下降到1.6亿元。

2020年,创新工场创始人李开复在公开场合表示,不否认过去许多AI公司割了投资人的韭菜,但是有三个AI专家就能估值7亿,靠AI概念忽悠投资人的时代已经过去了。

即使作为从独立创业公司中走出来的佼佼者,“AI四小龙”也得不得面对凛然的寒气。

一方面,阿里、腾讯等大厂纷纷自行开发人脸识别技术,海康威视、大华等硬件公司也先后开始布局图像识别领域,主要的应用赛道卷成红海;另一方面,AI落地主要以to B/G的模式为主,AI公司做的更多是定制化外包的工作,投入高却难以复用,整体经营状况不容乐观。

“以‘AI四小龙’做的计算机视觉为代表的这一代AI技术,主要是基于现有数据进行分析和判断,如今这个方向可以说已经做到极致,卷不动了,AI必须得找一些新的方向,就像如今的AIGC,虽然AI的创作方式并没有太大的改变,但确确实实往前迈了一步。”庄明浩对21世纪经济报道记者表示。

用百度CEO李彦宏的话说就是,人工智能正在从理解内容走向生成内容。


大力出奇迹


话题回到ChatGPT,为何它现在能实现如此革命性的变化?

首先应该说明的是,ChatGPT属于AI技术分支中的自然语言处理,同机器视觉并列,机器视觉解决的是让机器看懂图像中内容,自然语言处理负责让机器理解文字。

我们画画的时候,第一步先圈一些线条或与方块,确定哪里画手,哪里画胳膊,然后在这个基础上画出骨骼线条,最后补充画面细节,这一切完了之后,可能还需要进行光影、色彩等方面的调整。

深度神经网络借鉴了同样的思路,“深度”的含义就是逐层递进,从泛化规律到具体要求,在这个过程中,由于大多数的层级和具体任务的关系不大,就意味着大量基础的训练工作可以复用。

也就是说,我们可以先训练一个基于通用逻辑的“半成品”,比如训练出一个掌握所有线条规律的AI,这个过程称作“预训练”,得到的模型被称为“大模型”,然后绘画、修图、设计领域的工作者们再按照自己的具体要求,进行更进一步的训练,得到一个解决具体问题的最终产品。

由于文字特征比图像特征更加抽象,所以我们更早地看到人脸识别、图像识别、文字识别这些机器视觉领域的应用遍地开花。

2017年12月,谷歌在顶级机器学习会议NIPS上发表了论文《Attention is all you need》,至今仍然影响巨大的Transformer问世,Transformer解决的就是的文字特征提取问题,关键的卡壳问题解决,接下来就显得自然而然。

2015年12月,特斯拉CEO马斯克和Sam Altman等人创立OpenAI,2017年,OpenAI发布其首个生成人类文本的语言处理模型——GPT-1,GPT全称是“Generative Pre-Training”,即“生成式预训练”。

2018年,马斯克离开了OpenAI,OpenAI的解释是回避因特斯拉工作而可能造成的利益冲突。2019年,OpenAI拿到了微软的10亿美元投资,对它来说,还有很重要的一点,微软手里有AI所需要的一切:算力与大数据。

之后便是“大力出奇迹”,从GPT-1到GPT-3,模型的参数量从1.17亿增加到1750亿,预训练数据量从5GB增加到45TB,效果也非常显著,GPT-3可以根据简单的命令式写文章,写菜谱,甚至作曲,堪称目前为止最强大的通用语言模型,不过OpenAI并没有选择开源,这也让GPT-3没能享受到太大的破圈效应。

2021年,OpenAI又基于GPT-3发布了文字转图片模型DALL E,可以直接通过文字生成图片,比如输入“一把牛油果造型的扶手椅”,DALL E就能通过图像合成出一系列的目标图像,虽然功能强大,但OpenAI仍然选择不开源。

ChatGPT是在GPT-3的基础上做了微调,通过加强人类反馈的方式,提升记忆能力,使ChatGPT可以储存对话信息,延续上下文,从而实现连续对话,从而优化对话能力,这极大地提升了用户体验。

“我们很早也判断,AI跟人的交互过程,不应该仅仅是完成任务,更重要的是在这个过程中,让AI根据人的反馈去学习,我们今天看到ChatGPT在预训练的基础上让AI根据人的反馈去细化学习也正是如此。”清华大学惠妍讲席教授、IEEE/CAAI Fellow周伯文对21世纪经济报道记者表示,而在实际使用中,虽然ChatGPT有时会给出错误答案,但在用户反馈后,这些错误很快得到了纠正。

如果说每波技术浪潮的兴起,总是需要一些热点性事件做开场,ChatGPT一定榜上有名。

这次的主题,就是AIGC。


AIGC元年


在ChatGPT之前,AI绘画就已经开始崭露头角。

今年8月,美国科罗拉多州举办的新兴数字艺术家竞赛中,一位没有绘画基础的参赛者提交AIGC绘画作品《太空歌剧院》,获得了比赛“数字艺术/数字修饰照片”类别一等奖。

“机器才刚刚开始善于创造有意义和美丽的东西。”红杉在今年9月的一篇文章中表示,正如十年前移动互联网被一些杀手级应用打开了市场,如今的AIGC也站在这样的节点,比赛已经开始了。

易然也对记者表示,这一次技术的进步使得AI延伸到了生成类任务,如同上一波的感知技术,这次AIGC同样会带来一系列新的应用方向,出现诸多创业公司,同时也会加强不少成熟的科技和产业公司的能力。

事实上,早在2020年GPT-3发布以后,巨头间便开始了竞赛。2021年谷歌发布了万亿级模型Switch Transformer,微软和英伟达也推出了包含5300亿个参数的自然语言生成模型,而在国内,华为、百度以及阿里等也先后推出了自己的预训练大模型。

“这一波技术的进步是从谷歌等公司开始掀起,因为需要花费极大的算力和研发成本投入,最初时在模型这一层只有最大的几个科技公司投入得起,国内大厂以及很多企业其实也在跟进投入,在预训练大模型上也取得了相当不错的成果,尤其在中文相关场景。”易然对21世纪经济报道记者表示。

11月25日,据媒体报道,在最新的中文语言理解领域权威榜单CLUE中,阿里AI以86.685的总分成绩创造了新纪录,成为该榜单诞生近三年以来,AI首次超越人类成绩——AI的中文语言理解水平超过人类,未来或许值得期待。

开源无疑是AIGC踹开实验室大门,走向市场的最后一脚。今年5月,Meta开源了与GPT-3类似的通用语言大模型OPT;8月,Stability AI开源了文字转图片模型Stable Diffusion,并引发了AI绘画应用在全球范围内的爆炸式增长。
AIGC的爆火也在重新点燃资本市场对AI行业的热情。

今年10月,主打文字生成的AIGC公司Jasper.ai宣布完成1.25亿美元的A轮融资,估值达到15亿美元。几乎同一时间,Stability AI宣布获得1.01亿美元融资,估值已达10亿美元。Stability AI表示,所筹资金将用于开发图像、语言、视频、音频和3D等多模态开源模型。此外,这笔资金还将用于吸纳更多的人才,预计明年公司员工将从100人增加到约300人。

“像Open AI、Stability AI这些公司技术投入不弱于海外大厂,而且他们较早进行产品化并建立开放生态,过去一年多催化了一系列的行业应用和创业公司。目前话题性最强、传播最广的几个应用Dall E、ChatGPT、Stable Diffusion也是属于这两家公司的产品。这一点国内确实在短时间内还有所不及,无论从应用的开发到资本市场关注度上也都要稍晚一些。”易然对21世纪经济报道记者表示。

但实际深入到应用落地和创业公司上,易然认为差异并没那么大,“很多国内的早期公司已经在快速应用生成式AI/AIGC的能力,我们看到和客户需求结合得还是比较紧密的,目前预训练大模型领域的开源生态建设的也很好,中国创业公司也能够较好的用上海内外大厂的技术。”

“说白了,有了方向之后,很多事情就变简单了,中国公司更擅长商业模式上的创新,未来在应用层国内应该会出现比较多有意思的东西。”庄明浩告诉21世纪经济报道记者。


AIGC的颠覆能力


ChatGPT引发最多的讨论无疑是对于内容产业的颠覆。

“生成式AI目前和未来都将主要是辅助性的工具,内容创作者和创意工作者们没有必要谈虎色变,担心创作方式跟不上时代甚至彻底丢了饭碗。”易然表示。

例如在美术领域,人力成本以往是游戏制作的一大门槛。生成式AI的广泛应用,能够使项目策划立项阶段降低负担,同时也能够赋能更多的小工作室和中长尾游戏的出现,或者普遍提高其在美术、内容丰富度方面的水平。

“我的朋友是一家游戏公司的老板,原来设计人物或者场景,他首先要讲清楚自己想要的效果,美术根据理解去画,画出来之后再反复调整,这个过程费时费力且枯燥。当AI绘图出现,并且在分辨率、笔触、结构、光影效果等多个维度都可以达到'可用'的标准之后,老板和美术只需要跟AI讲清自己想要的效果,然后在AI跑出来的成百上千副作品中,挑选或再加工出满意的那个,时间成本得到大幅降低,这个过程中美术人员没有被取代,只是他们要学习如何使用AI,让自己的工作变得更有效率。”庄明浩告诉21世纪经济报道记者。

在庄明浩看来,内容领域最后所呈现的东西是偏主观的,甚至带有一定情绪化的艺术表达,并且在这个层次的表达,AI短期内没法实现。

2022年6月,AI辅助编程工具GitHub Copilot结束内测,正式外开放,开发人员使用GitHub Copilot实现AIcoding以及代码补全,比现有的其他代码辅助软件更加智能,可以实现全文理解,对文档、注释、函数名称,代码都可以智能化的进行上下文合成匹配,而根据官方统计,过去一年中GitHub Copilot已经积累了120万用户。

文字生成领域也已经出现了一批商业公司,如 Jasper.ai、Copy.ai开发的机器自动写作平台,用户输入关键字、AI 只需几分钟就能写成一篇逻辑与表达不输人类的长文。此前Narrative Science创始人曾预测,到2030年,90%以上的新闻将由机器人完成。不过由于GPT-3未对中国大陆开放接口,国内相关企业难以使用,文字生成的相关应用暂未在国内兴起。

“现在我们还没办法让AI直接写一本长篇小说或者完成一部电影,或者制作一个完整的游戏,但它已经可以写新闻、绘制图片甚至短视频,基于图片生成3D模型,再给AI一些时间,或许那些遥不可及的场景就会变得触手可及。”庄明浩说道。

“计算机科技领域已经很久没有在应用端出现技术带来的繁荣了,短期大家比较兴奋,是可以理解的,不妨让子弹再飞一会儿。”易然表示。

(作者:李强 编辑:林曦)