Meta揭露自家设计的推理晶片MTIA和下一代AI资料中心设计

为了满足未来10年人工智慧研究的需求,Meta规画下一代人工智慧基础设施。专为人工智慧设计的基础设施主干,包括使用Meta自己设计的人工智慧加速晶片MTIA,并采用新的资料中心设计。另外,在RSC(Research SuperCluster)计画第二阶段,Meta还将完成具有16,000个GPU的超级电脑,以支援人工智慧研究。

简称为MTIA(Meta Training and Inference Accelerator)的晶片,是Meta最新针对推理工作负载所设计的加速晶片,Meta表示,MTIA针对内部的工作负载,具有比CPU更强的计算能力和效率,透过部署MTIA和GPU,Meta能够以更高效能和更低的延迟执行工作负载。

由於Meta认为,他们特有的推荐工作负载规模,GPU无法总是提供需要的运算效率。因此特别开发了MTIA,这是一个全堆叠解决方案,包含了晶片、PyTorch和推荐模型。MTIA和PyTorch完全整合,因此开发者能够以与CPU和GPU相同的方式,在MTIA上开发程式,除了使用PyTorch,开发者也能以C/C++最佳化运算核心。MTIA之後也会整合PyTorch 2.0。

最新的资料中心也是针对人工智慧工作负载设计,具有液冷式人工智慧硬体,以及将数千个MTIA人工智慧晶片连结在一起的高效能人工智慧网路,可建立起资料中心规模的人工智慧训练丛集。新设计将使建置更快更具成本效益,并且与其他ASIC解决方案MSVP等现有硬体互补。

除此之外,Meta也将完成超级电脑RSC的第二阶段升级,这个专门用来训练大型人工智慧模型的超级电脑,将会拥有16,000个GPU,并且所有GPU都可以使用3阶段Clos网路(Clos Network),以高流量网路支援2,000个训练系统。

除了硬体的升级,Meta也透过部署人工智慧程式开发助理CodeCompose,改进内部开发方法,依据Meta的描述,CodeCompose就像GitHub Copilot,是一个生成式人工智慧程式开发助理,能够加速开发人员工作效率。

0 0 votes
Article Rating
Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x