外媒:微软将于下周发布大语言模型 GPT-4,多模态成为最大亮点

原文:Heise,由 DeFi 之道编译。

图片来源:由 Maze AI 生成

据德国新闻媒体 Heise 报道,在 3 月 9 日举行的一场名为“AI in Focus - Digital Kickoff”的大约一小时的活动上,四名微软德国公司的员工展示了像 GPT 系列这样的大语言模型 (LLM) 如何作为一种对企业的颠覆性力量,以及有关 Azure-OpenAI 产品的详细信息。 这场活动最重要的消息就是,微软德国公司首席技术官 Andreas Braun 相当随意地宣布了 GPT-4 将在下周发布。 自 3 月初发布 Kosmos-1 以来,微软正在使用 OpenAI 微调多模态这一事实应该不再是秘密。


“我们将在下周推出 GPT-4”


Braun 在活动中说,“我们将在下周推出 GPT-4,我们将拥有多模态(multimodal)模型,将提供完全不同的可能性——例如视频”。

他称大语言模型(LLM)为“游戏规则改变者”,因为他们教机器理解自然语言,然后机器以统计方式理解以前只能由人类阅读和理解的内容。 与此同时,这项技术已经发展到基本上“适用于所有语言”:你可以用德语提问,然后用意大利语得到答案。 借助多模态,微软(OpenAI) 将“使模型变得更全面”。


AI 带来颠覆性


此外,微软德国公司 CEO 玛丽安·贾尼克 (Marianne Janik) 在这场活动上全面地谈到了 AI 对企业的颠覆性影响。 Janik 强调了 AI 的价值创造潜力,并谈到这是一个时间转折点——当前的 AI 发展和 ChatGPT 就是“iPhone 时刻”。 她说,这并不是要取代工作岗位,而是要以不同于以往的方式完成重复性任务。

颠覆并不一定意味着导致失业。 Janik 强调说,这将需要“许多专家来利用 AI 增值”。 传统的工作描述正在发生变化,由于新的可能性的丰富,令人兴奋的新职业正在出现。 她建议公司成立内部“能力中心”,培训员工使用 AI 并将想法整合到项目中。

此外,这位 CEO 强调,微软不会使用客户的数据来训练模型(但是,根据其 ChatGPT 政策,这不会或至少不会适用于他们的研究合作伙伴 OpenAI)。 Janik 谈到了“民主化”——她承认她所说的只是意味着模型在微软产品系列框架内的即时可用性,特别是通过在 Azure 平台、Outlook 和 Teams 中集成 AI 的广泛可用性。


今天已经可能的 AI 用例


Clemens Sieber(微软德国高级 AI 专家)和 Holger Kenn(微软德国业务开发 AI 和新兴技术首席技术专家)在活动中同样进行了分享。他们提供了对 AI 的实际使用和他们团队目前正在处理的具体用例以及技术背景的见解。 Kenn 解释了什么是多模态 AI——它不仅可以将文本相应地翻译成图像,还可以翻译成音乐和视频。 除了 GPT-3.5 这类模型之外,他还谈到了嵌入,用于模型中文本的内部表示。 根据 Kenn 的说法,负责任的 AI 已经内置到微软产品中,并且“可以通过云将数百万个查询映射到 API 中”。 大多数听众可能都同意他的基本评估,即现在是开始的时候了。 特别是在编程领域,Codex 和 Copilot 等模型可以更轻松地创建样板代码。

Clemens Siebler 通过用例说明了今天已经成为可能的事情。 例如,可以记录语音到文本的电话呼叫,呼叫中心的座席将不再需要手动汇总和输入内容。 根据 Siebler 的说法,这可以为荷兰的一家每天接收 30000 次电话呼叫的大型微软客户每天节省 500 个工时。 该项目的原型是在两个小时内创建的,一个开发人员在两周内完成了该项目(再加上最终实施的更多时间)。 据他介绍,三个最常见的用例是回答只有员工才能获得的公司知识问题、AI 辅助文档处理和通过在呼叫和响应中心处理口语的半自动化。

当被问及操作可靠性和事实保真度时,Siebler 表示 AI 不会总是正确回答,因此有必要进行验证。微软目前正在创建置信度指标来解决此问题。 客户通常仅在自己的数据集上使用 AI 支持,主要用于阅读理解和查询库存数据,其中模型已经相当准确。 然而,模型生成的文本仍然是生成性的,因此不容易验证。 Siebler 说:“我们围绕它建立了一个反馈循环,包括赞成和反对。这是一个迭代过程"。

有趣的是,上述四名微软员工都没有对该公司新推出的搜索引擎“新 Bing”中的 AI 集成发表评论。