找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 472|回复: 0

终结英伟达的统治?全球科技巨头纷纷布局自研AI芯片

[复制链接]

该用户从未签到

发表于 2023-5-21 13:15:06 | 显示全部楼层 |阅读模式

您需要 登录 才可以下载或查看,没有账号?立即注册

×

·在这场AI芯片竞赛中,亚马逊似乎占据了先机,已拥有两款AI专用芯片——训练芯片Trainium和推理芯片Inferentia,谷歌则拥有第四代张量处理单元 (TPU)。相比之下,微软等还在很大程度上依赖于英伟达、AMD和英特尔等芯片制造商的现成或定制硬件。

本周,挑战英伟达AI芯片王者地位的竞争又加速了。

北京时间5月19日,Meta公司披露其正在构建首款专门用于运行AI模型的定制芯片——MTIA(Meta Training and Inference Accelerator)芯片,使用名为RISC-V的开源芯片架构,预计于2025年问世。

同样在这周,微软发布了一系列芯片相关招聘信息,其中一则写道,“我们正在寻找一名首席设计工程师在充满活力的微软AISoC(人工智能芯片及解决方案)团队中工作。”据称,该团队正在研究“能够以极其高效的方式执行复杂和高性能功能的尖端人工智能设计”。换句话说,微软某种程度上已把自己的未来寄托在人工智能开发机构OpenAI的一系列技术上,想要制造出比现成的GPU(图形处理器)和相关加速器更高效的芯片来运行这些模型。

当下,英伟达还是当之无愧的“AI算力王者”,A100、H100系列芯片占据金字塔顶尖位置,是ChatGPT这样的大型语言模型背后的动力来源。然而,不管是为了降低成本,还是减少对英伟达的依赖、提高议价能力,科技巨头们也都纷纷下场自研AI芯片。

jaWavNBzaa4WgA7p.jpg

粗略统计,微软、谷歌、亚马逊这3家公司已经推出或计划发布8款服务器和AI芯片。

粗略统计,微软、谷歌、亚马逊这3家公司已经推出或计划发布8款服务器和AI芯片。弗雷斯特研究公司(Forrester)主管格伦·奥唐奈(Glenn O'Donnell)认为,“如果你能制造出针对人工智能进行优化的芯片,那么你就会取得巨大的胜利。”

根据目前几家海外科技巨头在AI芯片方面的最新动作和进展,总体看来,在这场竞赛中,亚马逊似乎占据了先机,已拥有两款AI专用芯片——训练芯片Trainium和推理芯片Inferentia,谷歌则拥有第四代TPU(张量处理单元)。相比之下,微软等还在很大程度上依赖于英伟达、AMD和英特尔等芯片制造商的现成或定制硬件。

谷歌:最早自研TPU芯片

早在2013年,谷歌就已秘密研发一款专注于AI机器学习算法的芯片,并将其用在内部的云计算数据中心中,以取代英伟达的GPU。2016年5月,这款自研芯片公诸于世,即TPU。TPU可以为深度学习模型执行大规模矩阵运算,例如用于自然语言处理、计算机视觉和推荐系统的模型,其最初专为谷歌的超级业务云计算数据中心而生。

2020年,谷歌实际上已在其数据中心部署了人工智能芯片TPU v4。不过直到今年4月4日,谷歌才首次公开了技术细节:相比TPU v3,TPU v4性能提升2.1倍。

基于TPU v4的超级计算机拥有4096块芯片,整体速度提高了约10倍。谷歌称,对于类似大小的系统,谷歌能做到比Graphcore IPU Bow(Intelligence Processing Unit,智能处理单元)快4.3-4.5倍,比英伟达A100快1.2-1.7倍,功耗低1.3-1.9倍。

在谷歌发布TPU v4的技术细节后,英伟达也非常巧合地发布了一篇博客文章。在文章中,创始人兼CEO黄仁勋指出A100芯片是3年前发布的,最近发布的H100芯片提供的性能比A100高出四倍。

目前,谷歌已将负责AI芯片的工程团队转移到了谷歌云,旨在提高谷歌云出售AI芯片给租用其服务器的公司的能力,从而与更大的竞争对手微软和亚马逊云科技(AWS)相抗衡。今年3月,生成式人工智能明星企业Midjourney选择了谷歌云,称其正在使用基于云的TPU来训练机器学习模型。

亚马逊:训练和推理芯片占据先机

从2013年推出首颗Nitro1芯片至今,AWS是最先涉足自研芯片的云厂商,已拥有网络芯片、服务器芯片、人工智能机器学习自研芯片3条产品线。

2018年初,科技媒体Information爆料亚马逊已经开始设计定制AI芯片。

AWS自研AI芯片版图包括推理芯片Inferentia和训练芯片Trainium。2018年底,AWS推出自研AI推理芯片Inferentia,可以以低成本在云端运行图像识别、语音识别、自然语言处理、个性化和欺诈检测等大规模机器学习推理应用程序。

“运行机器学习的速度和成本——最理想的是深度学习——是企业的竞争优势。速度优势将决定企业的成败,这种速度只能通过定制硬件来实现,Inferentia是AWS进入这个游戏的第一步。”研究机构Constellation Research的分析师霍尔格·穆勒(Holger Mueller)在当时表示,谷歌在TPU基础设施方面有2-3年的领先优势。

2020年底,AWS推出专用于训练机器学习模型的Trainium。“我们知道我们想继续提高机器学习训练的性价比,所以我们将不得不投资自己的芯片。”AWS首席执行官安迪·贾西(Andy Jassy)在发布会当天称。

2023年初,专为人工智能打造的Inferentia 2发布,将计算性能提高了三倍,加速器总内存提高了四分之一,吞吐量提高了四分之一,延迟提高了十分之一。Inf2实例(可通过芯片之间的直接超高速连接支持分布式推理)最多可支持1750亿个参数,这使其成为大规模模型推理的有力竞争者。

在亚马逊、微软和谷歌这三家中,亚马逊是唯一一家在服务器中提供两种类型芯片(标准计算芯片和用于训练与运行机器学习模型的专用芯片)的云提供商,其在2015年收购以色列芯片设计公司Annapurna Labs为这些努力奠定了基础。

今年5月初,亚马逊CFO布莱恩·奥尔萨夫斯基(Brian Olsavsky)在财报电话会议上告诉投资者,该公司计划将支出从零售业务转移到AWS,部分原因是为了投资支持ChatGPT等应用所需的基础设施。亚马逊的一位发言人拒绝详细说明这笔钱将花在什么地方,但根据公司年报,其基础设施成本包括芯片。

微软:用Athena替代昂贵的A100/H100

4月18日,科技媒体The Information报道称,微软正在秘密研发自己的AI芯片,代号雅典娜(Athena)。该芯片由台积电代工,采用5nm先进制程,计划最早于明年推出。

这篇报道称,微软自2019年以来就一直在开发一款定制的专用芯片,用于为大型语言模型提供动力,目前已在测试阶段。Athena的首个目标是为OpenAI提供算力引擎,以替代昂贵的英伟达A100/H100。如果明年大规模推出,Athena将允许微软内部和OpenAI的团队同时训练和推理模型。

SemiAnalysis的分析师迪伦·帕特尔(Dylan Patel)表示,开发类似于雅典娜的芯片可能每年需要花费1亿美元左右,ChatGPT每天的运营成本约70万美元,大部分成本来源于昂贵的服务器,如果雅典娜芯片与英伟达的产品拥有同等竞争力,每个芯片的成本将可以降低三分之一。

Jr78u8rTbXyBxnII.jpg

微软官网的招聘信息。

从微软本周公布的一系列招聘信息看,该公司对定制芯片的兴趣超越了AI加速器。据其寻找设计验证工程师的招聘帖,该职位所属的硅计算开发团队将研究针对云工作负载的SoC(系统级芯片,也称片上系统)设计,这表明微软正在考虑采用类似于亚马逊Graviton系列的定制处理器。

微软还在微软云的硬件系统和基础设施部门招聘了一名DPU(数据处理单元)的硅工程师和一名封装设计工程师。这并不令人惊讶,因为微软在1月收购了DPU供应商Fungible。与此同时,后一个职位将负责“为各种数据中心产品领域”的“高性能计算芯片设计提供先进的封装解决方案”,这也表明微软的目标是跟随亚马逊的脚步,为各种计算应用构建定制芯片。

Meta:控制堆栈的每一层

Meta在采用AI友好的硬件系统方面历来进展缓慢,这阻碍了其与谷歌和微软等竞争对手保持同步的能力。直到2022年,Meta还主要使用CPU(中央处理器)和专为加速AI算法而设计的定制芯片组合来运行其AI工作负载。对于这类任务来说,CPU的效率往往不如GPU。后来,Meta取消了于2022年大规模推出定制芯片的计划,转而订购了价值数十亿美元的英伟达GPU。

为了扭转局面,Meta已经在开发内部芯片,并于5月19日公布了AI训练与推理芯片项目,称其为“针对推理工作负载的内部定制加速器芯片系列”。“为了在我们的重要工作负载中获得更高水平的效率和性能,我们需要一个为模型、软件堆栈和系统硬件共同设计的定制解决方案。”Meta基础设施副总裁亚历克西斯·比约林(Alexis Bjorlin)在接受采访时称。

据介绍,MTIA芯片的功耗仅为25瓦,占英伟达等市场领先供应商芯片功耗的一小部分,并使用了RISC-V(第五代精简指令处理器)开源架构。

Meta称,它在2020年创建了第一代MTIA——MTIA v1,基于7纳米工艺。在其设计的基准测试中,MITA芯片在处理 “低复杂性”和“中等复杂度”的AI模型时比GPU更高效。

值得注意的是,Meta于5月初收购了英国AI芯片独角兽Graphcore的AI网络技术团队。Graphcore创始人奈杰尔·图恩(Nigel Toon)曾公开表示,Graphcore不属于CPU、GPU和ASIC(专用计算芯片)中的任何一类,而是一款全新的,专为AI加速而生的处理器:既有极高的运算能力以处理高性能计算业务(HPC),又和GPU一样可编程,以满足不同的场景需求。

“构建我们自己的硬件功能使我们能够控制堆栈的每一层,从数据中心设计到训练框架。”比约林说,“需要这种水平的垂直整合才能大规模突破人工智能研究的界限。”




来源网址:https://www.thepaper.cn/newsDetail_forward_23163602
回复

使用道具 举报

网站地图|页面地图|文字地图|Archiver|手机版|小黑屋|找资源 |网站地图

GMT+8, 2024-11-17 03:51

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表