终结英伟达的统治？全球科技巨头纷纷布局自研AI芯片

qmncgknqsw · 发表于 2023-5-21 13:15:06

您需要登录才可以下载或查看，没有账号？立即注册

×

·在这场AI芯片竞赛中，亚马逊似乎占据了先机，已拥有两款AI专用芯片——训练芯片Trainium和推理芯片Inferentia，谷歌则拥有第四代张量处理单元（TPU）。相比之下，微软等还在很大程度上依赖于英伟达、AMD和英特尔等芯片制造商的现成或定制硬件。

本周，挑战英伟达AI芯片王者地位的竞争又加速了。

北京时间5月19日，Meta公司披露其正在构建首款专门用于运行AI模型的定制芯片——MTIA（Meta Training and Inference Accelerator）芯片，使用名为RISC-V的开源芯片架构，预计于2025年问世。

同样在这周，微软发布了一系列芯片相关招聘信息，其中一则写道，“我们正在寻找一名首席设计工程师在充满活力的微软AISoC（人工智能芯片及解决方案）团队中工作。”据称，该团队正在研究“能够以极其高效的方式执行复杂和高性能功能的尖端人工智能设计”。换句话说，微软某种程度上已把自己的未来寄托在人工智能开发机构OpenAI的一系列技术上，想要制造出比现成的GPU（图形处理器）和相关加速器更高效的芯片来运行这些模型。

当下，英伟达还是当之无愧的“AI算力王者”，A100、H100系列芯片占据金字塔顶尖位置，是ChatGPT这样的大型语言模型背后的动力来源。然而，不管是为了降低成本，还是减少对英伟达的依赖、提高议价能力，科技巨头们也都纷纷下场自研AI芯片。

粗略统计，微软、谷歌、亚马逊这3家公司已经推出或计划发布8款服务器和AI芯片。

粗略统计，微软、谷歌、亚马逊这3家公司已经推出或计划发布8款服务器和AI芯片。弗雷斯特研究公司（Forrester）主管格伦·奥唐奈（Glenn O'Donnell）认为，“如果你能制造出针对人工智能进行优化的芯片，那么你就会取得巨大的胜利。”

根据目前几家海外科技巨头在AI芯片方面的最新动作和进展，总体看来，在这场竞赛中，亚马逊似乎占据了先机，已拥有两款AI专用芯片——训练芯片Trainium和推理芯片Inferentia，谷歌则拥有第四代TPU（张量处理单元）。相比之下，微软等还在很大程度上依赖于英伟达、AMD和英特尔等芯片制造商的现成或定制硬件。

谷歌：最早自研TPU芯片

早在2013年，谷歌就已秘密研发一款专注于AI机器学习算法的芯片，并将其用在内部的云计算数据中心中，以取代英伟达的GPU。2016年5月，这款自研芯片公诸于世，即TPU。TPU可以为深度学习模型执行大规模矩阵运算，例如用于自然语言处理、计算机视觉和推荐系统的模型，其最初专为谷歌的超级业务云计算数据中心而生。

2020年，谷歌实际上已在其数据中心部署了人工智能芯片TPU v4。不过直到今年4月4日，谷歌才首次公开了技术细节：相比TPU v3，TPU v4性能提升2.1倍。

基于TPU v4的超级计算机拥有4096块芯片，整体速度提高了约10倍。谷歌称，对于类似大小的系统，谷歌能做到比Graphcore IPU Bow（Intelligence Processing Unit，智能处理单元）快4.3-4.5倍，比英伟达A100快1.2-1.7倍，功耗低1.3-1.9倍。

在谷歌发布TPU v4的技术细节后，英伟达也非常巧合地发布了一篇博客文章。在文章中，创始人兼CEO黄仁勋指出A100芯片是3年前发布的，最近发布的H100芯片提供的性能比A100高出四倍。

目前，谷歌已将负责AI芯片的工程团队转移到了谷歌云，旨在提高谷歌云出售AI芯片给租用其服务器的公司的能力，从而与更大的竞争对手微软和亚马逊云科技（AWS）相抗衡。今年3月，生成式人工智能明星企业Midjourney选择了谷歌云，称其正在使用基于云的TPU来训练机器学习模型。

亚马逊：训练和推理芯片占据先机

从2013年推出首颗Nitro1芯片至今，AWS是最先涉足自研芯片的云厂商，已拥有网络芯片、服务器芯片、人工智能机器学习自研芯片3条产品线。

2018年初，科技媒体Information爆料亚马逊已经开始设计定制AI芯片。

AWS自研AI芯片版图包括推理芯片Inferentia和训练芯片Trainium。2018年底，AWS推出自研AI推理芯片Inferentia，可以以低成本在云端运行图像识别、语音识别、自然语言处理、个性化和欺诈检测等大规模机器学习推理应用程序。

“运行机器学习的速度和成本——最理想的是深度学习——是企业的竞争优势。速度优势将决定企业的成败，这种速度只能通过定制硬件来实现，Inferentia是AWS进入这个游戏的第一步。”研究机构Constellation Research的分析师霍尔格·穆勒（Holger Mueller）在当时表示，谷歌在TPU基础设施方面有2-3年的领先优势。

2020年底，AWS推出专用于训练机器学习模型的Trainium。“我们知道我们想继续提高机器学习训练的性价比，所以我们将不得不投资自己的芯片。”AWS首席执行官安迪·贾西（Andy Jassy）在发布会当天称。

2023年初，专为人工智能打造的Inferentia 2发布，将计算性能提高了三倍，加速器总内存提高了四分之一，吞吐量提高了四分之一，延迟提高了十分之一。Inf2实例（可通过芯片之间的直接超高速连接支持分布式推理）最多可支持1750亿个参数，这使其成为大规模模型推理的有力竞争者。

在亚马逊、微软和谷歌这三家中，亚马逊是唯一一家在服务器中提供两种类型芯片（标准计算芯片和用于训练与运行机器学习模型的专用芯片）的云提供商，其在2015年收购以色列芯片设计公司Annapurna Labs为这些努力奠定了基础。

今年5月初，亚马逊CFO布莱恩·奥尔萨夫斯基（Brian Olsavsky）在财报电话会议上告诉投资者，该公司计划将支出从零售业务转移到AWS，部分原因是为了投资支持ChatGPT等应用所需的基础设施。亚马逊的一位发言人拒绝详细说明这笔钱将花在什么地方，但根据公司年报，其基础设施成本包括芯片。

微软：用Athena替代昂贵的A100/H100

4月18日，科技媒体The Information报道称，微软正在秘密研发自己的AI芯片，代号雅典娜（Athena）。该芯片由台积电代工，采用5nm先进制程，计划最早于明年推出。

这篇报道称，微软自2019年以来就一直在开发一款定制的专用芯片，用于为大型语言模型提供动力，目前已在测试阶段。Athena的首个目标是为OpenAI提供算力引擎，以替代昂贵的英伟达A100/H100。如果明年大规模推出，Athena将允许微软内部和OpenAI的团队同时训练和推理模型。

SemiAnalysis的分析师迪伦·帕特尔（Dylan Patel）表示，开发类似于雅典娜的芯片可能每年需要花费1亿美元左右，ChatGPT每天的运营成本约70万美元，大部分成本来源于昂贵的服务器，如果雅典娜芯片与英伟达的产品拥有同等竞争力，每个芯片的成本将可以降低三分之一。

微软官网的招聘信息。

从微软本周公布的一系列招聘信息看，该公司对定制芯片的兴趣超越了AI加速器。据其寻找设计验证工程师的招聘帖，该职位所属的硅计算开发团队将研究针对云工作负载的SoC（系统级芯片，也称片上系统）设计，这表明微软正在考虑采用类似于亚马逊Graviton系列的定制处理器。

微软还在微软云的硬件系统和基础设施部门招聘了一名DPU（数据处理单元）的硅工程师和一名封装设计工程师。这并不令人惊讶，因为微软在1月收购了DPU供应商Fungible。与此同时，后一个职位将负责“为各种数据中心产品领域”的“高性能计算芯片设计提供先进的封装解决方案”，这也表明微软的目标是跟随亚马逊的脚步，为各种计算应用构建定制芯片。

Meta：控制堆栈的每一层

Meta在采用AI友好的硬件系统方面历来进展缓慢，这阻碍了其与谷歌和微软等竞争对手保持同步的能力。直到2022年，Meta还主要使用CPU（中央处理器）和专为加速AI算法而设计的定制芯片组合来运行其AI工作负载。对于这类任务来说，CPU的效率往往不如GPU。后来，Meta取消了于2022年大规模推出定制芯片的计划，转而订购了价值数十亿美元的英伟达GPU。

为了扭转局面，Meta已经在开发内部芯片，并于5月19日公布了AI训练与推理芯片项目，称其为“针对推理工作负载的内部定制加速器芯片系列”。“为了在我们的重要工作负载中获得更高水平的效率和性能，我们需要一个为模型、软件堆栈和系统硬件共同设计的定制解决方案。”Meta基础设施副总裁亚历克西斯·比约林（Alexis Bjorlin）在接受采访时称。

据介绍，MTIA芯片的功耗仅为25瓦，占英伟达等市场领先供应商芯片功耗的一小部分，并使用了RISC-V（第五代精简指令处理器）开源架构。

Meta称，它在2020年创建了第一代MTIA——MTIA v1，基于7纳米工艺。在其设计的基准测试中，MITA芯片在处理 “低复杂性”和“中等复杂度”的AI模型时比GPU更高效。

值得注意的是，Meta于5月初收购了英国AI芯片独角兽Graphcore的AI网络技术团队。Graphcore创始人奈杰尔·图恩（Nigel Toon）曾公开表示，Graphcore不属于CPU、GPU和ASIC（专用计算芯片）中的任何一类，而是一款全新的，专为AI加速而生的处理器：既有极高的运算能力以处理高性能计算业务（HPC），又和GPU一样可编程，以满足不同的场景需求。

“构建我们自己的硬件功能使我们能够控制堆栈的每一层，从数据中心设计到训练框架。”比约林说，“需要这种水平的垂直整合才能大规模突破人工智能研究的界限。”

来源网址：https://www.thepaper.cn/newsDetail_forward_23163602

账号		自动登录	找回密码
密码			立即注册