您当前的位置:首页 >> 家居图库

英伟达首席科学家:深度学习硬件的过去、如今和未来

2023-04-24 12:16:11

建模都可以用FP16(半清晰度浮点近百量度)特训,因此Pascal体系本体的大多数型号都大力支持FP16量度。下三幅这款Pascal GPU的FP32量度飞行速度最重10.6 TFLOPS,比从前一款Kepler GPU极高单单不极少,而它的FP16量度则极为短时数间,飞行速度是FP32的两倍。

Pascal体系本体还大力支持极为多适合于于堆栈,例如FDP4,这样就可以将获必先取堆栈、复制和获必先取转换近百的所须平均分配到8个四则运算GPU中都。整体而言于以从前的结合乘纳(Fuse Multiply-Add)堆栈只能将所须平均分配到2个四则运算GPU,Pascal体系本体可以减极少额外所须助长的增量,转而将其运用于近百学GPU。

Pascal体系本体还运运用于了HBMKB,频高共约超过732 GB/s,是Kepler的3倍。之所以减小频高共约,是因为线程频高共约是厚度求学可靠性增纳的主要困难重重。此外,Pascal运运用于了NVLink,可以通往极为多电脑程式和GPU空降兵,从而极为好地顺利顺利完成大规模特训。英伟达为厚度求学推单单的DGX-1控制系统就运运用于了8个基于Pascal体系本体的GPU。

Volta (2017)

2017年,英伟达推单单了适运用于厚度求学的Volta体系本体,它的结构设计要点之一是可以极为好地平均分配堆栈所须。Volta体系本体中都带入了Tensor Core,运用于厚度求学的减缓。Tensor Core可以用堆栈的观感形式与GPU通往,其中都的极为关键堆栈是HMMA (Half Precision Matrix Multiply Accumulate,半清晰度分量formula_累进),它将2个4×4 FP16分量formula_,然后将结果纳和到一个FP32分量中都,这种GPU在厚度求学中都很常见于。通过HMMA堆栈,就可以将获必先取堆栈和复制的所须通过平均分配提极高到这样一来的10%到20%。

留下来的就是扭矩情况。如果想要要跃升Tensor Core的可靠性,那就不宜该在扭矩上倚靠。在Volta体系本体中都,大量的增量和维度都被运用于厚度求学减缓,所以即使牺牲芯片特质,也未助长太多可靠性增纳。

Volta还替换了HBMKB,线程频高共约超过900 GB/s,还运运用于了新英文版本的NVLink,可以让发挥作用空降兵时的频高共约减小到2倍。此外,Volta体系本体还首创了NVSwitch,可以通往多个GPU,从前提NVSwitch最多可以通往1024个GPU,发挥作用一个大型相关联线程电脑程式。

Turing (2018)

2018年,英伟达推单单了Turing体系本体。由于以从前的Tensor Core大获急于,所以英伟达又有鉴于此推单单了Integer Tensor Core。因为大多数的建模用FP16无需特训,认真侦探时也不须要太极高的清晰度和太大的静态范围内,用Int8无需。所以,英伟达在Turing体系本体中都首创了Integer Tensor Core,使可靠性提极高到这样一来的2倍。

Turing体系本体还运运用于了GDDRKB,以大力支持那些有极高频高共约须求量的NLP基本概念和中选控制系统。刚开始有人质疑援引,Turing体系本体的可接下来可靠性胜过价格昂贵的其他同步辐射。但如果来作量度,时会辨认单单回事Turing体系本体的可接下来可靠性极为好,因为Turing用的是G5KB,而其他同步辐射用的是LPDDR线程。我指单单,为了让G5KB是一个适当的建议,因为它可以大力支持同类厂商没法能大力支持的极高频高共约须求量的基本概念。

我对Turing体系本体深表勇敢的一点是,它还备有了大力支持光源监控(Ray Tracing)的RT Core。英伟达在2013年才开始科学研究RT Core,在短短5年后就月推单单了RT Core。

Ampere (2020)

2020年,英伟达释出了Ampere体系本体,让曾因释出的A100发挥作用了可靠性造就,侦探飞行速度最重1200 Teraflops以上。Ampere体系本体的;还有优点是,它大力支持稀极少特质。我们辨认单单,大多数建模都是可以稀极少转化成的,也就是感叹,可以对建模顺利完成“剪枝”,将大量计算所设为0而不因素所它的精准度。但多种不同建模的可稀极少转化成高度多种不同,这就有些棘手。比如,在必要不财产损失精准度的必要条件下,滤波建模的反射率可以提极高至30%到40%,而全通往建模则可提极高至10%到20%。

传统论调指单单,由于GPU稀极少分量包内的所须很大,所以如果反射率未降到10%表列出,就其之下不如GPU人口稠密分量包内。我们一开始和斯坦福大学合作开发科学研究稀极少特质,之后认真单单了不错的电脑程式,它们在分量反射率超过50%时也能极高效引驶,但要想要让稀极少分量在电源门控(power gating)技术性比人口稠密分量极为优越还是很困难,这是我们长期想要跃升的地方。再继续次,我们攻入论题研发单单了Ampere,而秘诀就是本体转化成稀极少。

本体转化成稀极少

Ampere体系本体明定分量的每4个近百计算中都,分量计算未极少于2个,也就是通过去掉分量计算对计算顺利完成转换。通过可视元组(code word)辨别哪些计算不宜被保有,能用元组辨别这些分量计算不宜该乘以哪些可视不宜呼,然后相纳,顺利顺利完成点乘转换。这种认真法极为极高效,让Ampere体系本体在大多近百建模上的可靠性增纳到这样一来的2倍。

此外,Ampere体系本体还有不极少创新点,例如Ampere内建了TF32(即TensorFloat-32)格式,它结合了FP32的8位指近百位和FP16的10位尾近百位。Ampere还大力支持BFLOAT格式,BFLOAT的指近百位与FP32不同,尾近百位比FP32极少,所以可以看认真FP32的缩减英文版。上述的所有图表格式都大力支持本体转化成稀极少,所以无论用FP16和TF32特训,还是用Int8和Int4侦探,都可以获本体转化成稀极少助长的极高可靠性。

随着Ampere在量转化成技术性认真得日渐好,它可以控制系统结构设计在很多建模上并必要极高可靠性。Ampere有6个HBM示例,且HBMKB的频高共约也有所替换,超过2TB/s。末端到末端侦探时,Ampere的GPU并能最重3.12 TOPS/W(Int8)和6.24 TOPS/W(Int4)。

2

GPU侦探可靠性增纳的并列因素所

GPU侦探可靠性增纳的并列因素所

揭示厚度求学过去的其发展,GPU侦探可靠性在8年中增纳317倍主要毫无疑问并列因素所:

首必先,最关键的是近百字回不宜(number representation)法的其发展。FP32的清晰度太极高,避免四则运算GPU的成本太极高。之后Turing和Ampere体系本体大力支持Int8,极大增纳了GPU的每瓦可靠性。Google公开发表博士论文揭晓TPU1时回不宜,TPU1的占优势就在于它是有为门为电脑程式求学特地内置的。严格来说,Google不宜该是在拿自家的TPU1和英伟达的Kepler顺利完成更为(;也,Kepler并非有为门为厚度求学而结构设计),所以TPU1的占优势归根结底可以感叹是Int8整体而言于FP32的占优势。

其次,GPU大力支持适合于于堆栈。Pascal体系本体另纳了点乘堆栈,然后Volta、Turing和Ampere体系本体另纳了分量formula_堆栈,让所须获得平均分配。在GPU中都保有芯片柴油发动机可以助长很多好处,它可以像同步辐射一样极高效,因为除此以外堆栈顺利顺利完成的使命极为多,除此以外堆栈的所须平均分配仅仅可以理论上。

之后,晶片控制系统结构设计的控制系统结构设计倡导。ROM晶片从28聚乙烯其发展到今日的7聚乙烯,为GPU可靠性增纳作单单了一定的表彰。

下列例子可以让你极为好地表达单单来所须平均分配的特性:如果执引HFMA转换,“乘”和“纳”2个转换合计只须1.5pJ(皮焦耳,Picojoules),然而获必先取堆栈、复制和获必先取转换近百须要30pJ的所须,平均分配下来所须时时会多达2000%。

而如果执引HDP4A转换,就可以将所须平均分配到8个转换,使所须上升至500%。而HMMA转换,由于绝大多数的增量都运用于扭矩,所须仅为22%,IMMA则极为极高于,为16%。因此,虽然执著芯片特质时会减小极少量所须,但采必先取多种不同的结构设计可助长的可靠性增纳极其关键。

3

从单卡可靠性到GPU空降兵通往

以上讲论的都是单个GPU的可靠性,但特训大型第二语言基本概念显然须要多个GPU,因此还要最弱化GPU二者之数间的通往手段。

我们在Pascal体系本体中都带入NVLink,之后的Volta体系本体运用于了NVLink 2,Ampere体系本体运用于了NVLink 3,每一代体系本体的频高共约都放了一倍。此外,我们在Volta体系本体中都推单单了第一代NVSwitch,又在Ampere体系本体推单单了第二代。通过NVLink和NVSwitch,可以发挥作用超大型的GPU空降兵。另外,我们还推单单了DGX box。

DGX box

2020年,英伟达收购了Mellanox,所以现今可以共享包内含Switches和Interconnect在内的整套图表中都心提极高可靠性,供发挥作用大型GPU空降兵之用。此外,我们还备有了DGX SuperPOD,它在AI可靠性日志500最弱名单上排引从前20。以往,用户须要内置电脑程式,现今只须要购得录音机可以侦察DGX SuperPOD的实配置电脑程式,就可以获DGX SuperPOD助长的极高可靠性。此外,这些电脑程式还极为适运用于科学量度。

正因如此,用单台电脑程式特训单个大型第二语言基本概念须要几个同年之久,但通过发挥作用GPU空降兵就可以大大提极高特训可靠性,因此,建模GPU空降兵通往和增纳单个GPU的可靠性都只关键。

4

厚度求学同步辐射:新控制系统结构设计的试验中场

再继续一讲讲英伟达的同步辐射研发临时工。英伟达把同步辐射看认真试验中新控制系统结构设计的多种观感形式,急于的控制系统结构设计再继续次时会被控制系统结构设计到主流GPU中都。

可以这样表达单单来同步辐射:它有一个由线程行政组织本体可视的分量行列式各别,再继续一要认真的是让大多数的增量运用于分量行列式量度,而不是运用于图表木头。

为了这个远距离,我们在2013近百启动了NVIDIA DLA项目,它是一款Debian厂商,配套极为充分为了让,与其他厚度求学同步辐射别无二致。但DLA有大型MAC自适不宜,大力支持2048次Int8、1024次Int16或1024次FP16转换。

DLA有两个独有之处:一是大力支持稀极少转化成。我们从容易发挥作用的远距离开始着手,所有的图表存储,包内括从DMA到Unified Buffer和从Unified Buffer到MAC自适不宜,都只相关分量计算,通过编码建议哪些成份被留下,然后对这些成份顺利完成存档,再继续可视MAC自适不宜顺利完成GPU。

DLA存档的手段更为机智,它极为向MAC自适不宜中都可视零计算,因为这时会让一连串的图表都去掉零。忽略,它所设了实质上的线东路回不宜零计算,当行列式缓冲器在任一可视中都接收到该线东路时,时时会瞄准行列式缓冲器内的图表,然后收发驱动,驱动的图表不时会减小任何近百计算,这种图表门控(Data Gating)的可接下来可靠性极为极高。

二是在不宜用程序技术性大力支持Winograd离散。要想到,如果要认真滤波,例如一个m×n的滤波核能,在维度可定义就须要n的2次方个行列式缓冲器和纳法缓冲器,但如果在频可定义,就只须要于在formula_。

所以大型滤波核能在频可定义GPU比在维度可定义GPU极为好效。根据滤波核能大小的多种不同,对多数三幅像局域网而言,Winograd离散可以助长4倍的可靠性增纳。

EIE(2016)

2016年,我在斯坦福和我刚开始的同学韩松(MIT EECS秘书博士、原深鉴科技联合创始人)一同科学研究EIE (Efficient Inference Engine)。这是对稀极少转化成的现阶段探讨之一。我们在不宜用程序技术性大力支持CSR(Compressed Sparse Row)分量回不宜,这种认真法极为极高效,在反射率为50%时,甚至比全反射率量度还要节约能源。

之后辨认单单,如果想要让同步辐射极为好效,不宜该发挥作用分量各别自适不宜,这样每个柴油发动机不时会只执引单个乘纳,而是每个反应缓冲器每个PE(Processing Element)执引16×16=256个乘纳。但当我们开始发挥作用分量各别自适不宜时,辨认单单未极高效发挥作用稀极少转化成,于是转而运用于本体转化成稀极少。

EIE处理手段分量各别时,它将常量本体储存在实质上的线程中都,然后通过流水阶段来处理手段常量本体,建议哪些图表可以formula_,继而执引行列式,将GPU结果安放在适合于于的从前方。这一整套控制系统结构设计引驶得极为极高效。

我们还辨认单单,提极高建模GPU可靠性的作法除了“剪枝”发挥作用稀极少转化成之外,还有量转化成。因此,我们建议运运用于码本量转化成(codebook quantization)。在用比特近百回不宜的图表技术性,码本量转化成是增纳可靠性的最佳作法。所以我们对codebook(码本)顺利完成了特训。

显然,如果你能运运用于偏置传递来捕捉通量上升,那就可以将偏置传递运运用于到任何事物中都。所以我们在码本中都运运用于偏置传递,特训了个数清晰度的最优元组集。假设码本有7个比特,那么你将获得128个元组,我们就在建模中都找到最优的128个元组顺利完成特训。

码本量转化成面对一个情况:近百学GPU的所须很极高。因为不管码本有实想要,理论上近百计算是多极少,你都须要在RAM(随机访问线程)中都顺利完成查找。理论上近百计算须要以极高清晰度回不宜,而你未将这些元组吻合地回不宜单单来。

因此,我们在极高清晰度近百学技术性花了很多注意力。从转换的视角来看,这样认真的特性不错,但从近百学极高能量(math energy)的视角来看,就来得不是很遑论,所以在后续临时工中都我们就下定决心了这项控制系统结构设计。

Eyeriss(2016)

Joel Emer(同时服务于于英伟达和斯坦福大学大学)和斯坦福大学大学的Vivienne Sze一同发挥作用了Eyeriss,主要解决了长条形情况,或者感叹是如何限制量度,为了将来将图表木头(data movement)最小转化成。典型的作法是运运用于引单独(row stationary),在引中都传递计算,驱动在列中都不宜呼,并第二大限度地减极少图表木头耗费的极高能量。

SCNN(2017)

我们现今仍在顺利完成稀极少特质科学研究。2017年,我们为稀极少编译(建模的进转化成英文版)搭起了录音机名为SCNN(Sparse CNNs)的电脑程式,我们所认真的是:将与处理手段稀极少特质相关的所有适合于于情况都转回到驱动上。读必先取所有的可视不宜呼,同时明确它们须要去往哪里,因此这里的“f高共约分量”是典型的分量可视不宜呼。我们一次时会读必先取四个可视不宜呼,四个计算,每个计算都须要乘以每个可视不宜呼。这只是一个关于把结果放在哪里的情况,所以我们用f乘f量度。

在座分量度中都,我们必先取可视不宜呼和计算的指近百,并量度单单在驱动不宜呼中都须建议和结果的从前方。然后在这些浮点区块上认真了一个图表比如说(scatter_add)量度。早必先,一切都极为必需。但显然,将不规则特质转回到驱动上不是一个好急于,因为在驱动中都,清晰度严格来说是最高共约泛的。当你倾向于累进,认真了八位计算,八位不宜呼,累进到了24位。在这里我们用高共约位浮点(wide accumulators )认真了大量的图表木头,特性要最弱认真极为人口稠密一点的图表木头。不过增纳也并未想要象的那么多,或许是反射率各别极高能量的50%。

SIMBA(RC18)(2019)

我们要认真的另一件事是:用原有同步辐射建造一个多ROM接口——SIMBA(RC18),在2018年消除了认真此科学研究的想要法,同时这款ROM也展出了很多机智的控制系统结构设计。它有一个不错的PE体系本体,该ROM则在其中都数间共享了一项极为必需的网关控制系统结构设计(signaling technology)。现今该体系本体扩展到了明晰的36个ROM,其中都每个ROM都有一个4x4的PE分量,在这个计量中都,每个PE又有8个高共约向量计量,因此我们并不需要获得128 TOPS的GPU并能,每个Op有0.1 pJ,大共约极为于10 TOPS/W。都能都我们习得了很多关于就其(trade-offs)的的路。

我们实见:发挥作用这些PE自适不宜宛如从前身一个极为大的结构设计维度(design space),关的如何发挥作用线程行政组织本体,如何调度图表等等,不能接受我们从前身了一个叫认真MAGNET的控制系统。

MAGNET

上三幅是一个于2019年公开发表在ICCAD(国际量度机辅助结构设计开时会)上的结构设计维度探讨控制系统,主要运用于枚举其结构设计维度,如:每个分量各别不宜该有多高共约,每个PE有多极少分量各别,计算区块有实想要,浮点区块有实想要,不宜呼区块有实想要等等。之后辨认单单,我们须要去认真另一个级别的缓存,于是替换成了计算收集缓冲器和浮点收集缓冲器。

MAGNET RESULTS

通过这种额外的缓存级别,我们再继续次必先赚取了急于。这表明这里的图表流是多种不同的,而计算单独图表流刚开始是由Sze和Joel来顺利顺利完成的。你将大多数极高能量于在了图表东方向以外的事情上,比如投入到总和区块、计算区块和可视区块中都。但通过这些混图表流,计算单独,连续特质驱动单独,驱动单独,连续特质计算单独,并不需要在近百学GPU中都获仅仅三分之二的极高能量,并且可以减极少花在这些线程自适不宜中都的极高能量,从而在线程行政组织本体的另一个层上顺利完成处理手段。这使得现今的每瓦可靠性超过共约为20 TOPS。

VS-Quant

2021年,在MLSYS(The Conference on Machine Learning and Systems,电脑程式求学与控制系统开时会)开时会上,我们带入了VS-Quant,为了将来探讨单单一种在转换比特近百(这技术性码本量转化成特性不错)和近百学所须技术性都很遑论的量转化成手段。我们运运用于整近百回不宜,但同时想要要缩放该整近百回不宜,以便可以回不宜单单整近百的静态范围内。

但显然,如果你现今将其控制系统结构设计到整个建模,那么特性不时会不错,因为建模上有很多多种不同的静态范围内,所以VS-Quant的极为关键是:我们对一个整体而言较小的分量施纳了一个实质上的比例q(scale factor),大共约通过在32个计算上顺利完成上述转换,静态范围内时会小得多。我们可以把这些整近百放在里面,也可以对其调整建模。

或许我们并未将离群计算吻合地回不宜单单来,但极为好地回不宜单单了其余近百字。也就是说,我们就可以用整体而言极高于清晰度的计算和不宜呼来换必先取较极高的清晰度。所以我们现今有多个比例q(scale factors ):一个是计算q,一个是不宜呼q。

Energy, Area, and Accuracy Tradeoff

我们都是是在分量行政组织顺利完成这些转换,结果如Bert-base所示。与不顺利完成计算特训比起,我们可以通过特训在某些情况节省20%的极高能量和70%的维度,上三幅的浅蓝色回不宜都是并未财产损失吻合特质;紫色、浅蓝色和浅蓝色回不宜吻合特质极为好或极为极高于。但即使在紫色低水平,吻合特质也极为极高了。

通过VS-Quant和一些其他调整,我们在这些第二语言基本概念上顺利完成了试引驶。在第二语言基本概念上引驶比在大共约为120 TOPS/W的三幅像基本概念上引驶要困难得多。

Accelerators

所以对于同步辐射,要必先认真一个分量行列式缓冲器。我们须要明确指单单一种长条形作法,一种运用于建模的七个嵌套反应缓冲器量度作法。单纯上是将其中都一些反应缓冲器插入线程控制系统的各层,以第二大限度地重复运运用于每层的线程行政组织本体,并尽量减极少图表木头。

我们还科学研究了稀极少特质,在转换技术性很不错。它都是减小了线程频高共约和收发频高共约,减极少了线程和收发的极高能量。稀极少特质其发展的下一个行政组织是:当你有一个零计算,只须实质上收发绳子回不宜零计算,而不须在每个反应缓冲器中都待机到8或16位。

Ampere体系本体可以通过运运用于本体转化成稀极少来重用行列式缓冲器,这是一种很必需的作法,只须要几个多东路复用缓冲器的所须(都是可以理论上)。在顺利完成常量转换时,我们也可以重用行列式缓冲器,都能都可获2倍的可靠性。近百计算表征(number representation)极为关键。我们从EIE开始(译者注解:Efficient Inference Engine,韩松博士在ISCA 2016上的博士论文。发挥作用了转换的稀极少建模的不宜用程序减缓。与其近百似作法的ESE获了FPGA2017的最佳博士论文。),试三幅认真码本,但这使得近百学上的缩放很昂贵。

之后,在同步辐射里试验中急于的控制系统结构设计再继续次时会被运运用于到GPU中都。这是一种不错的测试手段,我们指单单,GPU是一个针对特定领可定义不宜用程序的平台,它的线程控制系统极为好,局域网细腻,并不需要让厚度求学控制系统结构设计引驶得极为短时数间。

5

厚度求学不宜用程序的未来

Future Directions

再继续一讲讲厚度求学不宜用程序的未来。上三幅是一个极高能量流入饼状三幅,都能都可以看到大多数都流入于图表东方向,其背后有大共约50%是关于近百学GPU,所以我们想要让近百学GPU的极高能量耗费极为极少;留下来很多流入线程和图表木头。其中都浅蓝色的是图表木头,其余多数是可视区块、计算区块、累进区块和累进收集缓冲器,占比都有多种不同。

我们正设法科学研究提极高近百学GPU的极高能量耗费,最难的一个急于就是将其转回到对近百控制系统。因为在对近百控制系统中都,行列式变成了纳法,而纳法的耗能不一定要极高于得多。另一个急于是转为极为小的近百计算,这一点可以通过VS-Quant发挥作用。通过极为吻合地量转化成,我们可以用较极高于的清晰度近百从建模中都获同等的清晰度。

我们期望能将长条形认真得极为好,比如在某些情况,可能时会在线程行政组织本体中都替换成极为多层,这样就可以提极高线程极高能量,也可以使线程电东路和收发电东路的特性极为好。

在Ampere体系本体上,我们当初在本体转化成稀极少的临时工是一个不错的开始,但我指单单我们可以通过提极高反射率或为了让多个反射率来调整不宜呼和计算,为了将认真得极为好。

随着科学研究的深入,工艺控制系统结构设计也时会助长一些电感缩放的方面。

6

揭示

2012年释出Kepler体系本体以来,GPU的侦探可靠性(inference performance)每年都在减半上升。其发展到现今,很大高度上要毫无疑问促使极为好的近百字回不宜。本次我们讲了很多概要,比如从Kepler体系本体的FP32到FP16到Int8再继续到Int4;讲到了通过分配堆栈所须,运运用于极为适合于于的点积;讲到了Pascal体系本体,Volta体系本体中都的半高效率分量乘累进,Turing体系本体中都的整近百分量乘累进,还有Ampere体系本体和本体稀极少。

关于Plumbing我讲得很极少,但Plumbing却极为关键。通过Plumbing来布置网纹线程控制系统和局域网,由此可以充分为了让最弱而有力的Tensor Cores(张量核能心)。对于Tensor Cores来感叹,使其在Turing体系本体中都峰值执引一千兆的转换,并将图表可视到执引统一标准基准测试中都,为了将来须要分支存储设备缓冲器、网纹存储设备缓冲器和它们二者之数间的互联互通以及情况下引驶,都极为关键。

展望未来,我们准备想要法将各种新控制系统结构设计控制系统结构设计到同步辐射中都。上面提到,我们当初就稀极少特质和长条形控制系统结构设计顺利完成了多次科学研究,并在MAGNet项目中都试验中了多种不同的长条形控制系统结构设计和近百计算回不宜等等。但我们仅仅倍感担忧,因为厚度求学的控制系统结构设计倡导回事必先远大于不宜用程序可靠性的接下来增纳,让GPU的侦探可靠性每年都放一番是一项巨大的终究。

回事我们手里的牌打得仅仅了,这也就是说我们须要开始研发在此之后控制系统结构设计,表列出是我指单单计算得注解意的四个方向:首必先,科学研究在此之后近百字回不宜,比如对近百(Log number),以及比EasyQuant极其机智的量转化成建议书;其次,继续深入科学研究稀极少特质;然后,科学研究存储设备电东路和收发电东路;之后,小型化原有的工艺控制系统结构设计。

7

呼听众问

Dejan Milojicic:须要实想要的分量滤波才能将Winograd插值转换成极为好效的滤波发挥作用?

Bill Dally:我指单单,3×3的分量滤波就很极高效。当然,滤波越大,可靠性越极高。

Dejan Milojicic:极高频高共约存储设备缓冲器(High Bandwidth Memory, HBM)的线程频高共约是如何量度的?是通过所有的GPU核能同时访问线程吗?

Bill Dally:每个HBM示例都有一个实质上的帧区块,像Ampere体系本体有六个示例。我们的线程频高共约是通过每个线程电源以全频高共约引驶来量度的。各个GPU核能二者之数间都有一个缓存层,然后我们的网纹局域网的频高共约是HBM频高共约好几倍,所以都是只须引驶一小多数的除此以外多处理手段缓冲器就能使HBM超过饱和状态。

Dejan Milojicic:带有NVLink的分布式量度如何临时工?谁来建议具体执引哪一个量度?在多个GPU上认真scatter-gather时,哪些地方时会消除所须以及时会消除哪些所须?

Bill Dally:程序员时会建议把图表和线程放在什么从前方,而你只须在GPU上启动线程和图表以及相符它们的引驶从前方。运用于NVLink顺利完成通往的控制系统不具备;还有占优势,那就是它是一个相关联的URL维度,存储整体而言较小图表时的所须也极为小,所以我们在局域网中都采必先取空降兵收发。

不一定情况,如果你在厚度求学中都认真图表并引,那么每个GPU都时会引驶不同的局域网,但处理手段的是同一图表集的多种不同多数,它们时会各自总和计算通量,之后你再继续相关联各个GPU上的通量并总和所有通量,然后替换成到计算中都。空降兵收发就极为善于处理手段这样的临时工。

Dejan Milojicic:我们回事是不宜该为所有控制系统结构设计创设统一标准的厚度求学同步辐射,还是分别创设有为用的同步辐射,比如静态同步辐射或自然第二语言处理手段同步辐射?

Bill Dally:在不因素所可靠性的情况,我指单单同步辐射当然越统一标准越好,英伟达的GPU在减缓厚度求学可靠性技术性媲美有为用同步辐射。只不过关键的是,电脑程式求学领可定义正设法以极佳的飞行速度向上其发展。

几年从前,大家还在运运用于反应缓冲器建模处理手段第二语言,然后Transformer单单现并以迅雷不及掩耳之速过渡到了RNN,一夜数间所有人都开始运运用于Transformer顺利完成自然第二语言处理手段。都只,就在几年从前,每个人都在运运用于CNN来处理手段三幅像,虽然现今仍有不极少人在运运用于滤波建模,但日渐上百开始运运用于Transformer来处理手段三幅像。

因此,我极为大力支持厂商过度有为用转化成或者为某一局域网创设有为用同步辐射,因为厂商的结构设计时间尺度不一定须要接下来好几年时长,而在此期数间,人们很可能当初才时会运运用于这种局域网了。我们须要不具备观察力的眼光,及时洞悉引业变转化成,因为它时刻都在以极佳的飞行速度其发展。

Dejan Milojicic:摩尔原理对GPU可靠性和线程征用有何因素所?

Bill Dally:摩尔原理指单单,集成电路成本时会随时长逐年提极高。今天,电子元件上座席的集成电路近百量确实日渐多,ROM晶片也发挥作用了从16聚乙烯到7聚乙烯的造就,电子元件上的集成电路反射率日渐大,但单个集成电路的定价却并未提极高。因此,我指单单摩尔原理有些累赘了。

尽管如此,电子元件上能容纳极为多的集成电路仍是一件不该,这样我们就并不需要建造极为大规模的GPU。虽然大型GPU的增量也时会极为好,定价也极其昂贵,但这总归是一件不该,因为我们并不需要发挥作用一些正因如此未发挥作用的厂商。

Dejan Milojicic:如果Ubuntu更为十分重视PyTorch这样的基本概念,那么他们不宜该从不宜用程序的控制系统结构设计倡导中都求学什么来让自己的厚度求学基本概念引驶极为好效?

Bill Dally:这个情况未问到。基本概念在具象不宜用程序技术性认真得不错,但仅仅有一些因素所基本概念引驶飞行速度的因素所计算得科学研究。我们可以想要法去认真的是,当想要单单一项极为好的控制系统结构设计时,比如极为好的近百计算回不宜作法,可以想要法将各种多种不同的控制系统结构设计与基本概念相结合,忘了哪种作法极其必需,这是研发临时工不可或缺的环节。

Dejan Milojicic:英伟达是否是正设法科学研究在此之后芯片作法?

Bill Dally:我们长期在对各种芯片控制系统结构设计顺利完成各种科学研究,断定楚它们能认真什么和未认真什么,以便在适合于于的急于将它们侦察到厂商。比如其中都一些项目在科学研究多ROM接口,用铝凸点、混键合认真ROM填充,回事有很多简约的芯片控制系统结构设计。

Dejan Milojicic:英伟达的Tensor Core和雅虎的TPU比起,谁极为胜一筹?

Bill Dally:我们对雅虎最在此之后TPU极为知晓,但他们以从前推单单的TPU都是有为用柴油发动机,都是都内建了大型的乘纳缓冲器自适不宜。

TPU独立的各别来处理手段非线特质函近百和极高于成本归一转化成(batch norm)之类的事情,但我们的作法是从前身一个极为统一标准的量度各别除此以外多处理手段缓冲器(SM),只须极为统一标准的堆栈就可以让它认真任何事情,然后再继续用Tensor Core来减缓分量行列式多数。因此,Tensor Core和雅虎的TPU都有相似的乘纳缓冲器自适不宜,只是我们运运用于的自适不宜整体而言较小。

Dejan Milojicic:英伟达第二大的取胜是谁?

Bill Dally:英伟达没人跟其他新公司更为,第二大的取胜就是我们自己,我们也在促使地终究自己,我指单单这才是适当的一贯。如果我们盲目地把其他人当做大新公司,反而放缓我们从前进的向从前。不须过多注解意其他人在认真什么,我们只不过不宜该注解意的是哪些事情是可能发挥作用的。我们所认真的事就像在执著重力,我们极为注解意怎样才能认真到最难,以及间距重力还有多远,这才是只不过的终究。

Dejan Milojicic:你对广义整体而言论量度有何论调?广义整体而言论演示是厚度求学终究的自然相接吗?

Bill Dally:2021年3同年,我们释出了一款名为“cuQuantum”的软件开发该软件。Google以从前也研制单单了具备53个广义整体而言论比特的量度机,;还有自己发挥作用了“广义整体而言论优越特质”。一些传统量度机未顺利顺利完成的量度,用cuQuantum在五分钟内就能顺利顺利完成了。所以,如果想要只不过认真到精准的广义整体而言论插值,而不是今天的凌乱中都型广义整体而言论(Noisy Intermediate-Scale Quantum,NIST)量度,GPU不宜该是最佳为了让。

英伟达的传统GPU量度机是在此以从前最短时数间的广义整体而言论量度机之一,阿里巴巴也在相似的经典量度中都必先赚取了不错的总分,这恰好印证了我们的结论。我们对广义整体而言论量度的论调是:英伟达不时会因为这一控制系统结构设计领可定义的任何静态而觉得惊讶。

严格来说,我们还从前身了一个科学研究小组来监控广义整体而言论量度领可定义的从前沿静态,比如IBM月底研制单单了具备127个广义整体而言论比特的ROM。我们也长期在引踪广义整体而言论比特近百量和也就是说时长(coherence time)等技术性的方面。

回避到所须的广义整体而言论比特近百量、广义整体而言论比特的吻合特质、驾驶者对广义整体而言论的妨碍以及广义整体而言论延时所须的所须,我指单单未来五到十年中,广义整体而言论量度都未发挥作用商用。

我最自信的论调是,都是五年后,人们将开始顺利完成广义整体而言论转化成学演示,这不宜该最有可能认真到的。但在那以从前,还有很多物理上的论题须要解决。很上百还并未实见,广义整体而言论量度机就是演示量度机,而演示量度机须要极为吻合且不易隔离,否则任何与环境的耦合都时会避免结果不一致。

Dejan Milojicic:在你看来,电脑程式何时才能超过统一标准集成电路系统(AGI)的低水平?

Bill Dally:我对这个情况的论调更为消极。试看一些更为急于的集成电路系统用例,例如建模,回事它单纯上就是统一标准函近百拟合缓冲器。建模可以正确地来求学一个函近百,所以它的价计算还是体现今人工感知而不是集成电路系统。

虽然我们在此以从前当初必先赚取了不错的成就,但还是可以继续科学研究如何运运用于集成电路系统和厚度求学来提极高生产力,从而最弱化医疗卫生、基础教育,给人们助长极其幸福的生活。回事,我们不须要AGI来认真到这些,而不宜该十分重视如何第二大高度地为了让原有控制系统结构设计。间距AGI还有很长的东路要丢下,我们也须要断定回事什么是AGI。

(单单处:)

瞩目下多种观感形式验 OneFlow v0.8.0 促使更新英文版本:

前列腺炎
宝宝吃什么止泻药
食物寒凉引起肠胃不适怎么缓解
英特达泊西汀片(60mg)能治疗早泄吗
再林阿莫西林胶囊能治疗咽炎吗
友情链接