欢迎访问本站!

首页科技正文

新2最新网址(www.122381.com):英伟达来了个强敌:一个 CS2 可取代数百个 GPU

admin2021-09-2139

Allbet Gmaing电脑版下载

欢迎进入Allbet Gmaing电脑版下载(www.aLLbetgame.us),欧博官网是欧博集团的官方网站。欧博官网开放Allbet注册、Allbe代理、Allbet电脑客户端、Allbet手机版下载等业务。

,

这家初创公司为其盘算机系列增添了一台内存机械和一台fabric switch,支持由多达 192 台专用 AI 盘算机组成的集群系统。

Cerebras为之前宣布的CS-2 AI盘算机添加了一款新的交流机产物SwarmX(该产物同时拥有路由功效和盘算功效)以及一台含有2.4 PB DRAM和NAND的内存盘算机(名为 MemoryX)。

CS-2的内部示意图。从左到右是:面板、风扇、泵、电源装置、主机箱、热交流器、引擎组和后格栅。

CS-2的引擎组

深度学习形式的AI正在催生拥有数万亿个神经权重或参数的神经网络,越来越重大的规模给用于开发此类神经网络的软硬件带来了难题。

AI系统制造商Cerebras Systems的团结首创人兼首席执行官Andrew Feldman采访时概述了神经网络的近期生长史,示意“短短两年内,模子变大了 1000 倍,模子所需的盘算量也增添了 1000 倍。”

Feldman说:“这是一条艰难的生长轨迹。”

Feldman的公司在一年一度的面向先进盘算的Hot Chips盘算机芯片大会上推出新盘算机。今年该大会在网上举行,Cerebras宣布了宣布新盘算机的新闻稿。

Cerebras与AI向导者英伟达以及Graphcore和SambaNova Systems等其他AI初创公司相竞争,旨在训练这些日益重大的网络时取得领先的性能。训练是开发神经网络程序的阶段,开发所接纳的手段是馈送大量数据,频频调整神经网络权重,直至获得最高的准确度。

神经网络的规模一直在稳步增进,这在业内里不是什么隐秘。在去年,OpenAI的GPT-3自然语言处置程序虽拥有1750亿个权重,但与谷歌拥有1.6万亿个参数的模子Switch Transformer相比黯然失色。按神经权重来权衡GPT-3曾是全球最重大的神经网络。

云云重大的模子之以是遇到问题,是由于它们超出了单个盘算机系统所能处置的极限。单个GPU的内存约16GB,远远知足不了GPT-3等模子需要的可能多达数百TB的内存。因此,将系统集群起来变得至关主要。

而若何集群成为了要害问题,由于每台机械都必须保持忙碌状态,否则行使率会下降。好比说,今年英伟达、斯坦福大学和微软配合确立了一个有1万亿个参数的GPT-3版本,并将其扩展到3072个GPU。然则行使率(即每秒的操作次数)仅为该机械理论上应该能够到达的峰值操作的 52%。

因此,Feldman和Cerebras着手解决的问题是以一种能够更有用地行使每个盘算元件的方式处置越来越重大的网络,从而带来更好的性能,进而更有用地行使能源。

新盘算机包罗可协同操作的三个部门。一个是该公司含有晶圆级引擎即WSE芯片(有史以来生产的最大芯片)的盘算机的更新版。该系统名为CS-2。WSE2和CS-2都已于4月推出。

Cerebras Systems AI产物司理Natalia Vassilieva手持该公司的WSE-2,这单单一块芯片的面积险些与12英寸半导体晶圆的整个外面相当。该芯片于4月首次亮相,是新CS-2机械的焦点部件,新CS-2机械是该公司专用AI盘算机的第二个版本。

本周推出的新元件是一款名为MemoryX的机架式装备,它含有2.4 PB的DRAM和 NAND 闪存,用于存储神经网络的所有权重。第三个装备是所谓的光纤交流机,认真将CS-2毗邻到MemoryX,名为SwarmX。该交流机可以将多达192台CS-2机械毗邻到MemoryX,组成可针对单一大型神经网络协同事情的集群。

大型问题的并行处置通常有两种:数据并行或模子并行。

迄今为止,Cerebras充实行使了模子并行处置,即神经网络层漫衍在大型芯片的差异部门,以便各层及其权重可以并行运行。Cerebras软件自动决议若何将各层分配到芯片区域,一些层可以获得比其他层更多的芯片区域。

神经权重即参数是矩阵,通常由每个权重四个字节来示意,因此无论权重总数是若干,权重存储基本上是四的倍数。对于拥有1750亿个参数的GPT-3而言,整个神经网络的总面积将是700 GB。

单个CS-1可以保留中小型网络的所有参数或重大模子(好比GPT-3)的所有某个层,由于重大的片上SRAM:18 GB,无需将义务的部门事情内存拷贝到外部存储器。

Cerebras CS 1 3 Stack In Rack

Feldman谈到单个权重矩阵的维度时说:“GPT-3中最大的层约莫是12000 x 48000个元素。这可以轻松放在单个 WSE-2上来处置。”

Cerebras示意,在新的WSE2芯片中,SRAM内存增添到40 GB,单个CS-2机械就能保留用于120万亿参数神经网络的某一层的所有参数。他稀奇指出:“我们在Hot Chips大会上展示 48000 x 48000 的矩阵乘法,两倍于GPT-3。”

新2最新网址

www.122381.com)实时更新发布最新最快最有效的新2网址和新2最新网址,包括新2手机网址,新2备用网址,皇冠最新网址,新2足球网址,新2网址大全。

在流式方式中与MemoryX连系使用时,单个CS-2可以处置所有模子权重,由于它们一次一层地流式传输到机械。

该公司喜欢将该“大脑级盘算”比喻成人类大脑中的100万亿个神经突触。

这里的120万亿参数神经网络是由Cerebras内部开发的用于测试用途的合成神经网络,而不是已宣布的神经网络。

虽然CS-2可以在一台机械中保留所有这些层参数,但Cerebras现在示意可以使用MemoryX来实现数据并行处置。数据并行处置与模子并行处置相反,就在于每台机械都有相同的权重集,但要处置的数据切片差异。

为了实现数据并行处置,Cerebras将所有权重保留在MemoryX中,然后有所选择地将这些权重传输给CS-2,CS-2只存储单个数据切片。

每个CS-2收到流式权重后,将这些权重应用于输入数据,然后通过激活函数转达效果,激活函数是一种同样存储在芯片上的过滤器,认真检查加权输入以查看是否到达阈值。

这一切的最终效果是梯度(即对权重举行的小幅调整),然后梯度发回到MemoryX装备,用于更新权重的主列表。SwarmX处置MemoryX和 CS-2 之间的所有往返传输,但它也处置更多的义务。

Feldman注释:“SwarmX既可以处置通讯,又可以处置盘算。SwarmX交流机连系了梯度(名为消减),这意味着它执行类似求平均值的操作。”

Feldman示意,效果是CS-2的行使率与竞争对手相比要高得多,纵然在现在的生产级神经网络(好比GPT-3)上也是云云。

Feldman说:“别人的行使率在10%或20%之间,而我们在最大网络上的行使率在70%到80%之间――这是闻所未闻的。”添加系统提供了他所谓的“性能线性扩展”,这意味着若是添加16个系统,训练神经网络的速率将随之提高16倍。

因此,“今天,每个CS2可取代数百个GPU,而我们现在可以用集群方式取代数千个GPU”,他如是说。

Cerebras声称集群机械可实现线性扩展,这意味着每增添一定数目的机械,训练网络的速率会有响应倍数的提高。

Cerebras示意,并行处置带来了一个分外的利益,那就是所谓的希罕性(sparsity)。

一最先,Cerebras就以为英伟达GPU的效率异常低,由于它们缺少内存。GPU离不开售价昂贵的主内存DRAM,以便可以成批获取数据。但这意味着GPU可能会对毫无价值的数据举行操作,这是一种虚耗。这还意味着在守候每批数据被处置时,权重不会同样频仍地更新。

由于WSE拥有大量的片上SRAM,它能够提取单个数据样本,即每次提取一批,并在芯片上并行处置许多这样的单个样本。而对于每个单个样本,同样可以借助高速存储器处置某些权重,有选择且频仍地更新它们。

该公司在正式研究论文和AI产物司理Natalia Vassilieva撰写的博文中以为,希罕性带来了种种利益。它便于更高效地使用内存,并允许动态并行处置,这意味着反向流传(通过神经权重的反向转达)可以压缩成一条有用的管道,进一步提高并行化,并加速训练。这个想法在业界似乎受到越来越大的关注。

需要改用集群系统时,Cerebras再次提出了希罕方式。只需要将一些权重从MemoryX流式传输到每个CS-2,而且只需要将一些梯度发回到MemoryX。

换句话说,Cerebras声称由盘算机、交流机和内存存储组成的系统区域网络其行为类似于在单个WSE芯片上举行的希罕盘算的大型版本。

连系流式方式,CS-2中的希罕性以及MemoryX和SwarmX拥有一种天真动态的部件,该公司以为这是其他机械无法对比的。

Feldman说:“每一层可以有差其余希罕掩码,我们可以为每个轮次(epoch)提供差其余希罕度;在训练历程中,我们可以改变希罕度,包罗可以充实行使训练历程中所学到知识的希罕度,名为动态希罕性,而别人做不到这点。”

Feldman弥补道,为数据并行处置添加希罕性,可以将训练大型网络的时间缩短一个数目级。

Cerebras提倡大量而天真地行使名为希罕性的手艺,带来分外的性能优势。

固然,更多CS-2机械以及新装备的推销之道将取决于市场是否准备好迎接数万亿或数十万亿权重的神经网络。CS-2及其他部件预计将在今年第四序度出货,因此几个月后即可见分晓。

现有客户似乎很感兴趣。美国能源部九大超级盘算中央之一的阿尔贡国立实验室一最先就是CS-1系统的用户。虽然这家实验室尚未使用CS-2或其他部件,但研究职员对此充满热情。

阿尔贡国立实验室的副主任Rick Stevens在一份准备好的声明中说:“我们在已往几年已看到,对于NLP [自然语言处置]模子而言,效果准确性直接与参数成正比――参数越多,效果就越准确。”

Stevens说:“Cerebras的发现将使参数容量增添100倍,这很可能彻底改变业界。我们将首次能够探索大脑级其余模子,为研究和洞察力开拓广漠的新途径。”

被问及行使这种盘算能力的时机是否成熟时,Feldman说:“没有人在1月份将无酵饼放在货架上”,这种传统的无酵面包只在春天的逾越节前夕正好有人需要时才贮备。

网友评论

1条评论