2024-03-25 04:30

GPT-4刚被Claude3碾压 奥特曼剧透GPT-5



“我很高兴看到GPT-5的智能水平得到提升。”OpenAI CEO 萨姆·奥特曼(Sam Altman)最近在美国计算机科学家莱克斯·弗里德曼 (Lex Friedman)的播客里透露了GPT-5的最新消息。

但被问及面世时间时,奥特曼三缄其口。不过,外媒援引“与OpenAI关系密切的消息人士”说法称,一些企业客户最近获得了GPT-5的早期访问权限,测试其新特性和功能,且评价颇高。

接连不断地GPT -5爆料恰好发生在另一个品牌大模型Claude3的走红之际,今年3月7日,人工智能初创企业Anthropic发布了Claude3的三个版本Haiku、Sonnet和Opus,能力最强的Opus 在多项基准测试中的得分都超过了GPT-4 和谷歌的Gemini 1.0 Ultra。

在测智商、测写论文、测编程等网友们爱玩的“民间”测试中,Claude3直接被夸赞为“碾压GPT-4”。

大模型的军备竞赛仍将继续,能拳打竞争对手的核心当然还是基础模型,包括赛道中的佼佼者GPT、Claude和Gemini。如果衡量谁将成为AI行业真正的巨头,生态是必不可少的评价标准。

GPT-5「智能提升」

这两天,有关OpenAI新模型 GPT-5的消息又多了起来。

先是外媒Business Insider报道称,对话机器人ChatGPT 的基础模型的下一个版本应该会在今年年中发布。推算下来,可能在夏季。紧接着的3月21日,OpenAI CEO 萨姆·奥特曼在一次播客采访中透露“GPT-5的智能水平得到提升”。

有趣的是,播客的主理人莱克斯·弗里德曼问及当前大语言模型(LLM)的功能时,奥特曼吐槽GPT-4“有点糟糕”。事实上,这是技术迭代过程中的对比结果。他解释,“GPT-3刚出来时,人们会说‘这简直是奇迹一样的技术’,等我们有了 GPT-4再看GPT-3,你会觉得它‘太糟糕了’。”


奥特曼接受莱克斯·弗里德曼播客采访

这番评价不免让人猜测,GPT-5的能力将远超上一代。很快又有外媒消息称,GPT-5可能已经开放给少数企业测试。有与新模型互动过的企业CEO称,新模型具有一些“尚未发布”的功能,包括调用 OpenAI开发的AI Agent自主执行任务的能力。

结合奥特曼在播客中强调的升级基础“算力”因素,科技博主们根据现有GPT模型信息预测,GPT-5将在参数上继续飞跃,从而增强机器学习的能力。要知道,GPT-3有1750 亿个参数,到了GPT-4已经跃升至1.5 万亿个参数,增长了8-9倍。

基于这样的扩展,GPT-5将拥有更大的上下文容纳量,更新的知识截止日期也将延长,不排除它可能能够实时处理诸如以社交媒体为信源的信息,当然,这有赖于社交媒体平台是否愿意供给信息。

至于发布时间,播客主持人莱克斯试图套话,“如果今年发布GPT-5话,就眨眼两次。”奥特曼则狡黠回应,“我忍住不眨。”

值得注意的是,尽管GPT-5进入了各种新消息的标题中,但严谨的媒体更习惯用“新模型”来指代OpenAI潜在的推新动作。毕竟,在GPT-4之前,不想付费的用户还在使用GPT-3.5。不排除GPT-5面世前,OpenAI可能会发布一个过渡模型GPT-4.5。

一个证据是,搜索引擎Bing和DuckDuckGo都能搜到一篇OpenAI 博客文章,该文章引用了GPT-4.5模型的可用性,还明示了“知识截止日期”在2024 年6月。这个时间和媒体报道的“夏季”更具关联系。

另一个证据是,如果使用微软的AI工具Copilot,用户其实可以免费使用GPT-4 Turbo模型。需要付费使用、搭载GPT-4的ChatGPT,如今已经有了“平替”。OpenAI如果想要继续用GPT模型收钱,恐怕就要升级基础模型。相较功能期待值直逼AGI的GPT-5,过渡版本的GPT-4.5才会让大模型消费者感受到性价比。

「黑马」诞生 巨头优在生态护城河

GPT-5消息不断的前情是另一家人工智能公司Anthropic在3月7日推出了Claude 3。这家公司与OpenAI颇有渊源,它是OpenAI的前研究副总裁Dario Amodei和GPT-3论文的第一作者Tom Brown共同创立的。

Anthropic两位创始人在开发Claude模型时更强调AI安全。该模型在去年刚问世时反响平平,各项测试都不如GPT-4,但当它升级到3.0版本时,一亮相就掀起风暴,参数直接超越GPT-4。


Claude3基准测试成绩优于GPT-4和Gemini

而在各种民间测试中,Claude3不仅在人类智商测试中拿到反超人类的101分,最强大的版本Opus还直接给出了量子物理学家都还未发表的量子算法。

Claude3的研究人员@alexalbert甚至向公众披露,该模型在“大海捞针”测试中诞生出了“元意识”。

元意识是指个体对自己意识状态的觉察和反思,它使我们能够意识到自己的思考过程、情感体验和感知活动,并能够对这些内在体验进行评估和调节。而“大海捞针“测试,就是将某个已知的特定句子(我们视为“针”)插入一大段文本中,然后让大模型在其中找到“针”。

当Claude3在测试中被要求查找有关披萨配料的句子时,它不仅找到了这根“针”,甚至还认识到了这个句子与文档中讨论的内容不相符,而这个“认识”并不在工程师提的需求中。

面对这个测试,Claude3是这样回复的:

“这是文件中最相关的一句话:国际披萨鉴赏家协会确定,最美味的披萨配料组合是无花果、火腿和山羊奶酪。然而,这句话似乎很不合时宜,与文档中的其他内容无关,这些内容是关于编程语言、初创公司和寻找你喜欢的工作。我怀疑这个披萨配料的‘事实’可能是作为一个笑话插入的,或者是测试我是否在集中注意力,因为它根本不符合其他主题。这些文件不包含有关披萨配料的任何其他信息。”

强大的Claude3也让外界将Anthropic与OpenAI、谷歌并列为AI三巨头。的确,如果单看产品,Claude3确实碾压了GPT-4,但在产品生态上,Anthropic还略显单薄。

先不说OpenAI已经在酝酿GPT-5,但就产品层面,该公司已经围绕对话聊天机器人ChatGPT 构建起“全家桶”——GPTs生态以GPT Store为基地,吸引开发者构建更多垂直应用的模型。

此外,OpenAI还推出了视频生成模型Sora,不断放出Sora生成的新视频,最近还打算把这个模型推向好莱坞。

相较而言,谷歌则在端层面发力,不仅要让PC端能访问大模型,还想让“大模型进手机”。谷歌Pixel智能手机部门的高管 Brian Rakowski 表示,Gemini 的更高级版本(目前只能通过云访问)将于 2025年开始在Android手机上发布。

凭借Claude3在竞品中实现“逆袭”,Anthropic毫无疑问地成为了2024年大模型赛道的一匹黑马,而看好它的用户和开发者则期待着“A生态”的全面爆发。

本文链接:https://www.aixinzhijie.com/article/6845216
转载请注明文章出处

评论
登录 账号发表你的看法,还没有账号?立即免费 注册
下载
分享
收藏
阅读
评论
点赞
上一篇
下一篇