微软推出首款自研大模型 AI 芯片!台积电 5nm、1050

微软自研芯片靴子落地,黄仁勋要打造“AI 界台积电”。

芯东西 11 月 16 日报道,今日凌晨,微软在年度 IT 专业人士和开发者大会 Ignite 上推出两款自研芯片 —— 云端 AI 芯片微软 Azure Maia 100、服务器 CPU 微软 Azure Cobalt 100

Maia 100 是微软为微软云中大语言模型训练和推理而设计的第一款人工智能(AI)芯片,采用台积电 5nm 工艺,拥有 1050 亿颗晶体管,针对 AI 和生成式 AI 进行了优化,支持微软首次实现的低于 8 位数据类型(MX 数据类型)。微软已经在用搜索引擎 Bing 和 Office AI 产品测试该芯片。

Cobalt 100 是微软为微软云定制开发的第一款 CPU,也是微软打造的第一款完整的液冷服务器 CPU,采用 Arm Neoverse CSS 设计、128 核

微软还定制设计了一个 AI 端到端机架,并搭配了一个“助手”液冷器,原理类似于汽车散热器。

▲ 微软现场展示 AI 端到端机架

两款芯片明年年初开始在微软数据中心推出,最初为微软的 Copilot 或 Azure OpenAI Service 等服务提供动力。微软已经在设计第二代版本的 Azure Maia AI 芯片和 Cobalt CPU 系列。

这些芯片代表了微软交付基础设施系统的最后一块拼图 —— 从芯片、软件和服务器到机架和冷却系统的一切,微软这些系统都是由上到下设计的,可以根据内部和客户的工作负载进行优化。

值得一提的是,生成式 AI 超级独角兽 OpenAI 率先试用了 Maia 100 芯片。该芯片正在 GPT-3.5 Turbo 上进行测试

OpenAI 首席执行官 Sam Altman 说:“当微软第一次分享他们的 Maia 芯片设计时,我们很兴奋,我们一起努力改进并在我们的模型上测试它。Azure 的端到端 AI 架构现在与 Maia 一起优化到芯片,为训练更有能力的模型铺平了道路,并使这些模型对我们的客户来说更便宜。”

除了发布自研芯片外,微软宣布将扩大与英伟达、AMD 两家芯片巨头在 AI 加速计算方面的合作伙伴关系,为客户提供更多价格和性能的选择。

微软发布了针对英伟达 H100 GPU 的全新 NC H100 v5 虚拟机系列预览,还将在明年增加最新的英伟达 H200 GPU,以支持更大的模型推理;并宣布将在 Azure 中加入 AMD MI300X 加速虚拟机,旨在加速 AI 工作负载处理,用于 AI 模型训练和生成式推理。

英伟达创始人兼 CEO 黄仁勋专程来到现场,宣布推出一项 AI 代工服务,可以帮助部署在微软 Azure 上的企业和初创公司,构建自己的定制大语言模型。

▲ 纳德拉与黄仁勋握手

当微软 CEO 纳德拉提问未来 AI 创新的发展方向是什么,黄仁勋回答说:“生成式 AI 是计算史上最重要的平台转型。在过去 40 年里,从来没有发生过如此大的事情。到目前为止,它比个人电脑更大、比手机更大,而且将比互联网更大。”

01.揭秘微软造芯实验室:实现最大硬件利用率

微软的雷德蒙德园区隐藏着一个实验室,这里摆满了探索数字时代的基本组成部分 —— 硅。多年以来,微软工程师一直通过多步骤过程,对硅进行细致的测试,秘密改进其方法。

▲ 在微软雷德蒙德实验室里,一位系统级测试人员正在模拟芯片在微软数据中心内的运行情况。这台机器在真实世界的条件下严格评估每个芯片,以确保它符合性能和可靠性标准。(图源:微软)

微软认为增加自研芯片是一种确保每个元素都适合微软云和 AI 工作负载的方式。这些芯片将安装在定制的服务器主板上、放在定制的机架上,随着机架被安装到现有的微软数据中心中。

AI 芯片微软 Azure Maia 100 旨在实现硬件的绝对最大利用率,将为运行在微软 Azure 上的一些最大的内部 AI 工作负载提供动力。

领导 Azure Maia 团队的微软技术人员 Brian Harry 说,Maia 100 专门为 Azure 硬件堆栈而设计,这种垂直整合 —— 将芯片设计与考虑到微软工作负载而设计的更大 AI 基础设施相结合 —— 可以在性能和效率方面产生巨大的收益。

Cobalt 100 CPU 是一款 128 核服务器处理器,采用 Arm Neoverse CSS 设计构建。据微软硬件产品开发副总裁 Wes McCulloug 分享,这是一种经过优化的低功耗芯片设计,可以在云原生产品中提供更高的效率和性能。

选用 Arm 技术是微软可持续发展目标的一个关键因素,其目标是优化整个数据中心的“每瓦性能”,这本质上意味着为每单位消耗的能量获得更多的计算能力。

“初步测试表明,我们的性能比现有商用 Arm 服务器的数据中心性能提高 40%。”微软 Azure 硬件系统和基础设施副总裁 Rani Borkar 说。

▲ 首批由微软 Azure Cobalt 100 CPU 驱动的服务器,位于华盛顿州昆西的一个数据中心内。(图源:微软)

“我们正在最有效地利用硅上的晶体管。将我们所有数据中心的服务器的效率提升相乘,这是一个相当大的数字。”McCulloug 谈道。

02.从 2020 年开始为云造芯,给 AI 芯片定制机架和“散热助手”

虽然微软为其 Xbox 和 HoloLens 设备研发芯片已有十多年,但它为 Azure 创建定制芯片的努力从 2020 年才开始。

Azure 硬件系统和基础设施团队的合作伙伴项目经理 Pat Stemen 称,2016 年前,微软云的大多数层都是现成的,随后微软开始定制服务器和机架,降低了成本,并为客户提供了更一致的体验。随着时间的推移,硅成了主要的缺失部分。

自研定制芯片的测试过程包括确定每个芯片在不同频率、温度和功率条件下的峰值性能,更重要的是在微软真实数据中心的相同条件和配置下测试每个芯片。

▲ 在微软雷德蒙德实验室里,芯片正在进行系统级测试,在安装到服务器上之前,模拟它们在实际生产条件下的使用情况。(图源:微软)

今天公布的芯片架构不仅可以提高冷却效率,还能优化其当前数据中心资产的使用,并在现有范围内最大限度地提高服务器容量。

例如,不存在机架来容纳 Maia 100 服务器主板的独特需求,所以微软从零做出更宽的数据中心机架。这种扩展的设计为电源和网络电缆提供了充足的空间,能满足 AI 工作负载的独特需求。

▲ 在微软雷德蒙德实验室的一个热室里,为 Maia 100 AI 芯片和它的“伙伴”定制的机架。在处理 AI 工作负载的计算需求时,新“助手”在机架之间循环液体来冷却芯片。(图源:微软)

大型 AI 任务需要大量的计算、消耗更多的电力。传统空气冷却方法无法满足这些需求,液冷已成为应对这些热挑战的首选方案。但微软目前的数据中心并不是为大型液冷机器设计的。因此它开发了一个“助手”,放在 Maia 100 机架旁边。

这些“助手”的工作原理有点像汽车的散热器。冷液从侧板流向附着在 Maia 100 芯片表面的冷板。每个板都有通道,液体通过这些通道循环以吸收和输送热量。这些热量会流到副翼,副翼会从液体中去除热量,并将其送回机架以吸收更多的热量,以此类推。

▲ 冷板附着在 Maia 100 AI 芯片的表面。(图源:微软)

McCullough 强调说,机架和“助手”的串联设计强调了基础设施系统方法的价值。

通过控制每一个方面 —— 从 Cobalt 100 芯片的低功耗理念到数据中心冷却的复杂性 —— 微软可以协调每个组件之间的和谐相互作用,确保在减少环境影响方面,整体确实大于各部分的总和。

微软已经与行业合作伙伴分享了其定制机架的设计经验,无论内部安装的是什么芯片,微软都可以使用这些经验。

“我们建造的所有东西,无论是基础设施、软件还是固件,我们都可以利用我们自己的芯片,或是我们行业合作伙伴的芯片。”McCullough 分享道,“这是客户做出的选择,我们正努力为他们提供最好的选择,无论是性能、成本还是他们关心的任何其他方面。”

Stemen 说,微软的使命很明确:优化其技术堆栈的每一层,从核心芯片到终端服务。

“微软的创新将进一步深入到芯片工作中,以确保我们客户在 Azure 上的工作负载的未来,优先考虑性能、能效和成本。”他谈道,“我们有意选择这项创新,以便我们的客户能够在今天和未来获得 Azure 的最佳体验。”

大会期间,微软还宣布了其中一个关键要素的全面可用性 ——Azure Boost,这是一个将存储和网络进程从主机服务器转移到专用硬件和软件上的系统,有助于加快存储和网络的速度。

03.英伟达推出 AI 代工服务,助攻快速定制生成式 AI 模型

在微软 Ignite 大会上,英伟达也诚意满满地公布一项新进展 —— 推出 AI 代工服务

英伟达创始人兼 CEO 黄仁勋现场与微软 CEO 纳德拉进行了 11 分钟的对谈,分享英伟达与微软的全面合作。

他谈道,生成式 AI 是计算史上最重要的平台转型,由于生成式 AI,一切都变了,过去 12 个月,微软与英伟达两个团队尽一切努力加快速度,联手打造了世界上最快的 AI 超级计算机,这通常需要两三年,而两个团队只用 1 年就构建了其中的两个,一个在微软,一个在英伟达。

我们将为想要构建自己专有大语言模型的人做台积电为我们做的事情,我们将成为 AI 模型的代工厂。”黄仁勋说,企业需要定制模型来执行根据公司专有 DNA(即数据)进行训练的专业技能,该 AI 代工服务结合了英伟达的生成式 AI 模型技术、大语言模型训练专业知识和巨型 AI 工厂。

AI 代工服务能帮助企业构建跨行业(包括企业软件、电信和媒体)的生成式 AI 应用定制模型。准备好部署后,企业可以用检索增强生成(RAG)技术将其模型与企业数据连接起来。英伟达在微软 Azure 中构建了此功能,以便世界各地的企业可以将其定制模型与微软云服务连接起来。

该服务汇集了三要素:英伟达 AI 基础模型、英伟达 NeMo 框架和工具、英伟达 DGX Cloud AI 超级计算服务的集合,来提供用于创建自定义生成式 AI 模型的端到端解决方案。

然后,企业可使用英伟达 AI Enterprise 软件部署自定义模型,以支持生成式 AI 应用程序,包括智能搜索、摘要、内容生成。

使用英伟达 AI 代工服务的客户可以从多个英伟达 AI Foundation 模型中进行选择,包括托管在 Azure AI 模型目录中的全新英伟达 Nemotron-3 8B 模型系列。Nemotron-3 8B 具有用于构建自定义企业生成式 AI 应用的多语言功能。

开发人员还可以访问英伟达 NGC 目录中的 Nemotron-3 8B 模型以及社区模型,比如专为英伟达优化以加速计算的 Meta Llama 2 模型。

SAP SE、Amdocs、Getty Images 等均已使用该服务构建自定义模型。

SAP 计划将该服务和优化的 RAG 工作流程与在 Azure 上运行的英伟达 DGX Cloud 和英伟达 AI Enterprise 发软件结合使用,以帮助定制和部署其新的自然语言生成式 AI copilot Joule。

04.结语:尚未公布具体芯片参数,如何影响云服务定价有待观察

可能是因为处于早期部署阶段,微软并没有发布具体的芯片参数或性能基准。两款芯片新品将加入微软云的底层硬件供应列表中,以帮助满足对高效、可扩展和可持续计算能力的爆炸式需求。

微软正在建设持 AI 创新的基础设施,并正在重新构想数据中心的各个方面,包括优化 Azure 硬件系统的灵活性、电源、性能、可持续性、成本,优化和整合基础设施堆栈的每一层,以最大限度地提高性能,使其供应链多样化。

自研 AI 芯片能让微软免于过度依赖少数头部芯片供应商。目前尚存的疑问是微软将以多快速度将两款芯片上架,以及这些芯片会如何帮助平衡对生成式 AI 体验爆发的需求,以及将如何影响微软 Azure AI 云服务的定价。

栏目推荐