谷歌的自研芯片帝国

发布时间: 2023-12-14 00:42| 发布者: wangjing| 查看: 20613| 评论: 0

摘要: 这两天，AI再一次登上了各大媒体的头条。12月6日，谷歌官宣了了全新的多模态大模型 Gemini，包含了三个版本，根据谷歌的基准测试结果，其中的 Gemini Ultra 版本在许多测试中都表现出了“最先进的性能”，甚至在大部 ...

那两天，AI再一次登上了各年夜媒体的头条。

12月6日，谷歌民宣了了齐新的多模态年夜模子 Gemini，包罗了三个版本，按照谷歌的基准测试成果，此中的 Gemini Ultra 版本正在很多测试中皆表示出了“开始进的机能”，以至正在年夜部门测试中完整击败了 OpenAI 的 GPT-4。

而正在Gemini出尽了风头的同时，谷歌借拾出了另外一个另外一个重磅炸弹——齐新的自研芯片TPU v5p，它也是迄古为行功用最壮大的 TPU。

按照民圆供给的数据，每一个 TPU v5p pod 正在三维环形拓扑构造中，经由过程最下带宽的芯片间互联（ICI），以 4,800 Gbps/chip 的速率将 8,960 个芯片组开正在一同，取 TPU v4 比拟，TPU v5p 的 FLOPS 战下带宽内乱存（HBM）别离进步了 2 倍战 3 倍。

除此以外，TPU v5p锻炼年夜型 LLM 模子的速率比上一代 TPU v4 快 2.8 倍，操纵第两代 SparseCores，TPU v5p 锻炼嵌进麋集模子的速率比 TPU v4 快 1.9 倍。TPU v5p 正在每一个 pod 的总可用 FLOPs 圆里的可扩大性也比 TPU v4 超出跨越 4 倍，且每秒浮面运算次数（FLOPS）增长了一倍，单个 pod 中的芯片数目也增长了一倍，年夜年夜进步了锻炼速率的相对机能。

谷歌借找去了一堆科教家为TPU v5p的AI机能背书：

Salesforce 初级研讨科教家Erik Nijkamp暗示：“我们不断正在操纵谷歌云TPU v5p对Salesforce的根底模子停止预锻炼，那些模子将做为专业消费用例的中心引擎，我们看到锻炼速率有了明显进步。究竟上，Cloud TPU v5p 的计较才能是上一代 TPU v4 的 2 倍之多。我们借十分喜好利用 JAX 从 Cloud TPU v4 到 v5p 的无缝沉紧过渡。我们很快乐能经由过程准确量化锻炼（AQT）库对 INT8 准确格局的本死撑持去劣化我们的模子，从而进一步进步速率。”

Lightricks 中心天生式野生智能研讨团队卖力人 Yoav HaCohen 专士暗示：“操纵谷歌云 TPU v5p 的杰出机能战充沛内乱存，我们胜利天锻炼了文本到视频的天生模子，而无需将其拆分红零丁的历程。这类最好的硬件操纵率年夜年夜放慢了每一个锻炼周期，使我们可以疾速展开一系列尝试。正在每次尝试中快速锻炼模子的才能增进了快速迭代，那是我们的研讨团队正在合作剧烈的天生式野生智能范畴的贵重劣势。”

谷歌 DeepMind 战谷歌研讨院尾席科教家 Jeff Dean也力挺自家芯片：“正在晚期利用中，谷歌DeepMind战谷歌研讨院察看到利用TPU v5p芯片的LLM锻炼事情背载的速率比TPU v4代进步了2倍。对 ML 框架（JAX、PyTorch、TensorFlow）战和谐东西的壮大撑持使我们可以正在 v5p 上更下效天扩大。有了第两代 SparseCores，我们借发明嵌进式事情背载的机能有了明显进步。TPU 关于我们正在 Gemini 等前沿模子上展开最年夜范围的研讨战工程事情相当主要。”

关于谷歌来讲，Gemini是应对Open AI的一柄利器，而TPU v5p则是一块拍门砖，用它去垒起一讲抵抗英伟达GPU的下墙，硬件硬件左右开弓，仿佛它正在AI时期里已处正在没有败之天。

成绩去了，谷歌凭甚么能具有如今的劣势？

岌岌知名到名谦全国

谷歌TPU并不是一挥而就，它的自研旅途初于十年之前。

做为一家科技公司的谷歌，实在早正在 2006 年便思索为神经收集构建公用散成电路 (ASIC)，但到了 2013 年，状况变得紧急了起去，谷歌的科教家们开端意想到，神经收集快速增加的计较需供取数据中间数目存正在着不成和谐的冲突。

其时的 Google AI卖力人Jeff Dean颠末计较后发明，假如有1亿安卓用户天天利用脚机语音转笔墨效劳3分钟，此中耗损的算力便是Google一切数据中间总算力的两倍，而环球安卓用户近没有行1亿。

数据中间的范围不成能有限造天扩大下来，谷歌也不成能限定用户利用效劳的工夫，但CPU战GPU皆易以满意谷歌的需供：CPU一次只能处置相对来讲很大批的使命，GPU正在施行单个使命时服从较低，并且所能处置的使命范畴更小，自研成了最初的前途。

谷歌坐下了一个小目的：针对机械进修那一目标去构建特定范畴计较架构（Domain-specific Architecture），借要将深度神经收集推理的整体具有本钱（TCO）低落至本来的非常之一。

凡是，ASIC 的开辟需求数年工夫，但谷歌却仅用了 15 个月便完成了TPU处置器的设想、考证、制作并布置到数据中间。TPU 项目标手艺卖力人 Norm Jouppi（也是 MIPS 处置器的次要架构师之一）如许形貌冲刺阶段：

“我们的芯片设想速率十分快。那的确十分了不得。我们正在出有改正毛病或变动掩膜的状况下，便开端出货第一个芯片。思索到我们正在构建芯片的同时借正在雇用团队，然后雇用 RTL（电路设想）职员，并慢于雇用设想考证职员，那统统皆十分繁忙。”

代表着谷歌手艺结晶的初代TPU 接纳了 28 纳米工艺制作，运转频次为 700MHz，运转时功耗为 40W，谷歌将处置器包拆成中置加快卡，装置正在 SATA 硬盘插槽中，完成即插即用。TPU 经由过程 PCIe Gen3 x16 总线取主机毗连，可供给 12.5GB/s 的有用带宽。

取 CPU 战 GPU 比拟，单线程 TPU 没有具有任何庞大的微架构功用，极简主义是特定范畴处置器的长处，谷歌的TPU一次只能运转一项使命：神经收集猜测，但每瓦机能却到达了GPU的30倍，CPU的80倍。

谷歌正在那件事上表示得十分低调，曲到2016年的Google I/O开辟者年夜会上，尾席施行民Sundar Pichai才正式背天下展现了TPU那一自研功效。

Pichai对参会的高朋暗示，DeepMind研收的AlphaGo可以击败韩国棋脚李世石，底层硬件里的TPU功不成出，TPU便像希腊神话中激发特洛伊战役的女人——海伦，它的呈现惹起了“成千芯片取之竞逐”。

但谷歌并已行步于此，险些是正在第一代TPU完成后，便立即投进到了下一代的开辟傍边：2017年，TPU v2问世；2018年，TPU v3推出；2021年，TPU v4正在Google I/O开辟者年夜会上表态……

而谷歌关于AI芯片也愈收驾轻就熟：第一代 TPU 仅撑持 8 位整数运算，那意味着它能停止推理，但锻炼却高不可攀；而TPU v2，不只引进了HBM内乱存，借撑持了浮面运算，从而撑持了机械模子的锻炼战推理；TPU v3则正在前一代根底上，重面增强了机能，且布置正在 Pod 中的芯片数目翻四倍。

到了TPU v4，Pichai更是自豪天暗示：“AI手艺的前进有好于计较根底设备的撑持，而TPU恰是Google计较根底设备的主要部门。新一代TPU v4芯片的速率是v3的两倍多。Google用TPU散群构建出Pod超等计较机，单台TPU v4 Pod包罗4096块v4芯片，每台Pod的芯片间互连带宽是其他互连手艺的10倍，因而，TPU v4 Pod的算力可达1 ExaFLOP，即每秒施行10的18次圆浮面运算，相称于1000万台条记本电脑的总算力。”

到了2023年的明天，TPU曾经成了AI芯片的代名词之一，成了继CPU战GPU后又一主要的处置器，它布置正在谷歌数十座数据中间傍边，天天完成着数以亿计的AI计较使命。

谷歌的自研帝国

TPU只是谷歌自研的序幕。

2017年的Google Cloud Next '17 年夜会上，谷歌推出了名为Titan的定造宁静芯片，它专为硬件级此外云宁静而设想，经由过程为特定硬件成立减稀身份，完成更宁静的辨认战身份考证，从而防备日趋疯狂的BIOS进犯。

Titan芯全面背的其实不满是谷歌本人，它的呈现是为了压服企业，数据存正在谷歌云中比企业的当地数据中间更宁静，谷歌暗示，自研的Titan芯片经由过程成立壮大的基于硬件的体系身份，去考证体系固件战硬件组件，庇护启动的历程，那统统得益于谷歌本人创立的硬件逻辑，从底子上削减了硬件后门的能够性，基于Titan的死态体系也确保了设备仅利用受权且可考证的代码，终极让谷歌云具有了比当地数据中间更宁静的牢靠性。

Titan的呈现，只不外是小试牛刀，2021年3月，谷歌正在ASPLOS 集会上初次引见了一块使用于YouTube效劳器的自研芯片，即Argos VCU，它的使命很简朴，便是对用户上传的视频停止转码。

按照数据统计，用户每分钟会背YouTube上传超越500小时的各类格局的视频内乱容，而谷歌则需求将那些内乱容快速转换成多种分辩率（包罗144p、240p、360p、480p、720p、1080p、1440p、2160p战4320p）战各类格局（比方，H.264、VP9或AV1），出有一块具有壮大的编码才能的芯片，念要快速转码便是一件不成能的工作。

谷歌测验考试过两种处理计划，第一种是英特我的视觉计较加快器(VCA)，包罗三个 Xeon E3 CPU，内乱置 Iris Pro P6300/P580GT4e 散成图形内乱核战先辈的硬件编码器，第两种则是操纵英特我至强处置器中减硬件编码去完成使命。

但不管是前者仍是后者，皆需求宏大的效劳器范围战巨额的电力消耗，因而，谷歌开启了又一块自研芯片——VCU的研收。卖力监视 YouTube 宏大根底设备的 Google 工程副总裁斯科特·西我弗 (Scott Silver) 暗示，从2015年开端，约莫有 100 名 Google 工程师构成的团队投身设想第一代Argos 芯片，正在尔后几年傍边，那收团队不只完成了研收，借让芯片使用正在谷歌的数据中间傍边，而Argos的气力也得以展示——它处置视频的服从比传统效劳器下 20 到 33 倍，处置下分辩率 4K 视频的工夫由几天收缩为数小时。

下一代Argos大概早已静静正在谷歌效劳器中上线了，按照报导，谷歌自研的第两代VCU将撑持 AV1、H.264 战 VP9 编解码器，能够进一步进步其编码手艺的服从，也将会是YouTube内乱容创做死态的最有力支持。

而谷歌最强的年夜招借得是最庞大的脚机SoC。2021年10月19日，一场春季公布会上，拆载谷歌尾款自研芯片 Tensor 的旗舰脚机 Pixel 6 系列初次表态。

谷歌初级副总裁 Rick Osterloh 正在公布会上暗示，那款芯片是“公司汗青上最年夜的挪动硬件立异”，而谷歌CEO Sundar Pichai更是早早天正在推特上晒出了Tensor芯片的照片，关于自研项目标骄傲感溢于行表。

不外那块自研芯片，本质上是基于三星正在2020年开放的半定造芯片设想的效劳，正在TechInsights的拆解图中，Tensor的启拆尺微暇为 10.38mm x 10.43mm = 108.26mm 2，内乱部芯片标识为“S5P9845”，契合传统三星Exynos处置器定名划定规矩，如Exynos 990的芯片标识为S5E9830，Exynos 2100 5G SoC芯片标识为S5E9840，素质上是谷歌界说，三星设想代工的一块芯片。

即使云云，谷歌的自研芯片的规划也已初具雏形，从TPU到Titan，从VCU到Tensor，谷歌走过了十年的路程，而它试图通盘把握那个硅片构成帝国的家心也昭然若掀。

谷歌的智慧帐取绊足石

关于谷歌来讲，要钱有钱，要手艺有手艺，要使用场景有使用场景，能够道是各年夜科技巨子中正在自研AI芯片那条路上走得最近的，其他厂商今朝借正在络绎不绝天给英伟达账户挨钱，但谷歌却早已做好了两脚筹办，很多人以至将它视为现在英伟达把持场面的最强应战者。

取微硬战亚马逊比拟，谷歌最凸起的劣势，便是从体系级的角度设想TPU，单个芯片当然主要，但正在理想天下中怎样正在体系中组开利用则更加主要。固然英伟达也从体系角度考虑成绩，但他们的体系范围比谷歌更小，范畴也更窄。并且谷歌借正在 TPU 之间利用了定造的收集仓库 ICI。取高贵的以太网战 InfiniBand 布置比拟，这类链路提早低、机能下，相似于英伟达的 NVLink。

究竟上，谷歌的 TPUv2 能够扩大到 256 个 TPU 芯片，取英伟达的 H100 GPU 数目不异。正在 TPU v3 战 TPU v4 中，那一数字别离增长到了 1024 战 4096个。按照趋向线，而最新的 TPU v5p 则能够扩大到 8960 个芯片，而无需经由过程低效的以太网。

别的，谷歌正在OCS、拓扑构造、DLRM 劣化上也具有独到的劣势，十年去积累的经历劣势协助谷歌的TPU正在数据中间里战AI年夜模子中年夜展技艺，正在详细使用中，用远远抢先去描述也不外分，将来谷歌完整挣脱英伟达GPU的掣肘，也并不是不成能。

不外，谷歌另有一个没有年夜没有小的绊足石。

TPU的自研初于2013年，能正在15个月里快速布置到数据中间，同时完成快速迭代机能猛删，除通宵达旦的谷歌研讨职员中，别的一家公司供给的协助也极端主要。

按照2020年摩根年夜通阐发师哈兰·苏我的陈述，谷歌TPU v1至v4那几代均是由专通配合设想的，其时它曾经开端消费接纳7nm 工艺的TPU v4，并开端取谷歌协作设想接纳5nm工艺的TPU v5

苏我暗示，专通的公用散成电路（ASIC）营业2020整年支出为 7.5 亿美圆，下于 2016 年的 5000 万美圆，除芯片设想以外，专通借为谷歌供给了枢纽的常识产权，并卖力了制作、测试战启拆新芯片等步调，以供给谷歌的新数据中间，专通借取其他客户如Facebook、微硬战AT&T等公司协作设想ASIC芯片。

而按照2022年专通的财报，其将 ASIC 支出分为两部门：路由战交流和计较卸载。计较卸载正在数据中间内乱分两步处置。当提出计较恳求时，路由器战交流时机决议由数据中间的哪一个部门去处置那项事情。一旦决议，处置器（凡是是 CPU 或 GPU，如 Nvidia 设想的处置器）便会停止计较，然后由那些路由器战交流机再次经由过程互联网或公用收集收收回终极用户。

便支出而行，专通是环球第两年夜野生智能芯片公司，仅次于英伟达，其ASIC的贩卖额达数十亿美圆，而那恰是谷歌为呼应微硬取 OpenAI 协作而减年夜 TPU 布置的成果，光是一家谷歌的TPU便让专通的ASIC支出翻了两番借多，谷歌出交给英伟达的野生智能税，以另外一种情势进了专通的心袋。

不管是哪家公司，皆没有会意苦甘愿持续交那笔钱的，因此正在本年9月便传出了谷歌筹办正在2027年前完毕取专通的协作干系，动静人士称，谷歌下管曾经设定了抛却专通的目的，转而开端思索起了它的合作敌手Marvell，此前两家公司便TPU 芯片的订价成绩堕入了少达数月的僵局。

固然前面谷歌民圆又出去辟谣，暗示今朝出有方案改动取专通的协作干系，但公底下两家分歧曾经是人尽皆知的工作了。

谷歌正在TPU上算了一笔智慧帐，正在微硬等巨子乖乖交钱的时分，它取出了TPU v5p去对立英伟达，但它出念到的是，几年前借没有起眼的ASIC协作，现在却成了TPU开展路上最年夜的一颗绊足石，只需扩展TPU的布置范围，便得不竭减钱给专通。

云云念去，巨子们实的是躲得过月朔，躲不外十五，躲过了英伟达GPU下达70%的利润，却躲不外像专通如许的协作公司，微硬那些巨子，念要正在AI芯片上省钱，此后不免会碰到像谷歌昔日普通的困局吧。

1、转载或引用本网站内容须注明原网址，并标明本网站网址(https://www.wnceo.com)。

2、本网站部分投稿来源于“网友”，文章内容请反复甄别。若涉及侵权请移步网站底部问题反馈进行反映。

3、对于不当转载或引用本网站内容而引起的民事纷争、行政处理或其他损失，本网站不承担责任。

4、对不遵守本声明或其他违法、恶意使用本网站内容者，本网站保留追究其法律责任的权利。

收藏分享邀请

上一篇：OpenAI 600万天价年薪震惊网友，全美顶尖AI公司薪酬大曝光下一篇：晶澳科技聘请首位可持续发展顾问-诺贝尔和平奖获得者Mohan Munasinghe

wangjing

0
粉丝
20613
阅读
0
回复

作者其他文章

关注世界总裁网

扫描关注,了解最新资讯

实时了解财经信息

掌握市场风云动态

助力商场共赢至胜

改变你所看到的世界

资讯幻灯片

热门资讯

07-17

wangjing

全球首个可变形个人机器人，上纬新材启元T1

上纬新材今日官宣，全球首个可变形个人机器人 —— 启元 T，正式登场。据介绍，上纬新
07-17

wangjing

超越Opus 4.7美国顶级大模型 Kimi K3即将发

这个月会有多款国产重量级大模型发布，除了DeepSeek V4正式版之外，最受关注的当属月
07-17

wangjing

澳大利亚将推出其人工智能标准并在政府内设

澳大利亚联邦政府当地时间今日宣布将推出其人工智能标准并在总理和内阁部内设立人工智
07-17

wangjing

Mistral首席执行官Mensch：法国凭平价电力

据外媒 POLITICO 当地时间本月 12 日报道，法国人工智能初创企业 Mistral AI 首席执行
07-17

wangjing

诺基亚与英伟达推出行业首个商用AI-RAN平台

芬兰网络设备制造商诺基亚表示，公司已与英伟达共同开发出全球首个商用人工智能驱动的
07-17

wangjing

谷歌Google Vids新增数字分身功能：你也可

7 月 17 日消息，当地时间 16 日，谷歌宣布为 Google Vids 加入个人数字分身功能，用
07-17

wangjing

世界人工智能大会来了：这里有全球AI浪潮里

整齐的展台已然就位，屏幕上光影跃动。7月17日，2026世界人工智能大会暨人工智能全球
07-17

wangjing

Cloudflare推出Precursor：一键导入，持续

7 月 16 日消息，互联网基础服务企业 Cloudflare 当地时间本月 13 日宣布推出持续行为
07-17

wangjing

苹果AI有啥用？Apple Intelligence这些功能

等了两年，国行苹果AI终于要来了。7月15日，网信办发布公告，"Apple智能"正式完成备案
07-17

wangjing

OpenAI前女CTO创业发布首款AI模型：借鉴中

穆拉蒂凤凰网科技讯北京时间7月16日，据《华尔街日报》报道，OpenAI前首席技术官米拉

热门专题

全球首个可变形个人机器人，上纬新材启元T1

超越Opus 4.7美国顶级大模型 Kimi K3即将发

澳大利亚将推出其人工智能标准并在政府内设

Mistral首席执行官Mensch：法国凭平价电力

诺基亚与英伟达推出行业首个商用AI-RAN平台

谷歌Google Vids新增数字分身功能：你也可

排行榜