新闻中心

首页 > 新闻中心> 行业新闻

美国公司称研发世界最大芯片,借此诞生120万亿“大脑级”AI模型

发布时间:2021-08-30发布人:

美国公司称研发世界最大芯片,借此诞生120万亿“大脑级”AI模型
来源:DeepTech深科技   


        在近日的 Hot Chips 大会上,美国芯片公司 Cerebras 的 CEO 安德鲁·费尔德曼(Andrew Feldman) 展示了他们号称的世界第一个人脑级 AI 解决方案,将192 个CS-2 集群在一起,实现的神经网络拥有120万亿个连接量。


       在近日的 Hot Chips 大会上,美国芯片公司 Cerebras 的 CEO 安德鲁·费尔德曼(Andrew Feldman) 展示了他们号称的世界第一个人脑级 AI 解决方案,将192 个CS-2 集群在一起,实现的神经网络拥有120万亿个连接量。


       这相当于人类大脑中的突触数量。


       安德鲁·费尔德曼表示,这项技术使目前最大的人工智能神经网络的规模扩大了 100 倍。


       与 Cerebras 合作的阿贡国家实验室的副主任里克·史蒂文斯(Rick Stevens)对此评价道:“过去几年向我们表明,对于 NLP 模型来说,参数越多,结果就越好。Cerebras 的发明将提高 100 倍的参数容量,它有可能改变行业。我们将首次能够探索人脑大小的模型,开辟了广阔的研究和洞察的新途径。”


       Cerebras CS-2,地球最快人工智能处理器


       在这项技术中发挥重要作用的 CS-2 是什么?


       CS-2 专为超级计算任务而构建,这是自 2019 年以来,Cerebras 公司第二次推出基本上是整个晶圆的芯片。


       芯片制造商通常从直径为 12 英寸的硅锭中切片晶圆,再在芯片工厂中加工。一旦加工,晶圆被切成数百个单独的芯片,可分别用于电子硬件。


       但 Cerebras 用整个晶圆制作了一块巨大的芯片。芯片的每一块被称为 "核心",都以复杂的方式与其他内核互连。互连旨在保持所有内核高速工作,以便晶体管可以协同工作。


       CS-2拥有 46225 mm² 面积的硅、2.6 万亿个晶体管和 85万个 AI 优化内核,全部包装在单个晶圆大小的 7nm 处理器上。


       首个人脑级 AI 解决方案解锁四项创新


       Cerebras 的联合创始人兼首席硬件架构师肖恩·烈(Sean Lie)在会议上详细介绍了首个人脑级 AI 解决方案所涉及的技术。

此前,谷歌研究人员在 1 月份宣布,他们已经培训了一个总共拥有 1.6 万亿参数的模型,大约是人脑比例的 1%,即大约 1 万亿个突触等价物或参数。这些图形处理器群只消耗了人类大脑的一小部分,却消耗了数英亩的空间和兆瓦的功率,而且需要专门的团队来操作。


       为了解锁极端尺度模型的潜力,Cerebras 意识到需要一种新的方法来解决同时扩展大量内存、计算和通信的挑战。


       Cerebras 的新技术组合包含四项创新:Cerebras Weight Streaming,一种新的软件执行架构;Cerebras MemoryX,一种内存扩展技术;Cerebras SwarmX,高性能互连织物技术;Selectable Sparsity,一种动态的稀疏收获技术。


       肖恩·烈介绍道,Cerebras 决定处理传统上分配内存、计算和通信以及同时同步所有内存等复杂的、相互交织的问题,并将它们分解。能够这样做的原因是,神经网络对模型计算的不同组件使用不同的内存。这种模式解锁了独特的灵活性,允许模型大小和训练速度的独立缩放,大大简化了缩放问题。


       在这种模式下,将模型权值存储在一种名为 MemoryX 的新内存扩展技术中,并根据需要将权值流到 CS-2 系统中,以计算网络的每一层,一次一层。在向后传递时,梯度被反向流回 MemoryX,在那里及时执行权重更新,以用于下一次迭代的训练。


       在这个拓扑结构中,还引入了一种名为 SwarmX 的互连结构技术,可以为极端规模的模型近线性地扩展 CS-2 系统的数量。


       除了扩展能力和性能,Cerebras 的架构独特地为稀疏神经网络提供了巨大的加速。这些技术对于实现极端规模的实际应用至关重要,因为传统的架构并不能加速这些稀疏网络。另一方面,Cerebras 的架构使用细粒度的数据流调度来触发有用工作的计算,这能够节省功率和实现 10 倍的重量稀疏性加速。


       对于研究人员来说,这种体系结构是无缝的:用户只需为单个 CS-2 系统编写神经网络映射,而 Cerebras 软件在用户的扩展中负责执行,消除了传统的内存分区、协调和同步。


       林利集团(Linley Group)高级分析师、《微处理器报告》(The Microprocessor Report)高级编辑迈克·德姆勒(Mike Demler)表示:“他们可以将培训的可扩展性提升到巨大的层面,超越目前任何人正在做的事情。”


       CS-2 系统的核心,WSE-2(the Wafer Scale Engine Two),可以接受标准 PyTorch 和 Tensor Flow 代码,这些代码很容易被公司的软件工具和 API 修改。Cerebras 还允许客户指导级别访问硅,这与 GPU 供应商形成鲜明对比。


       据安德鲁·费尔德曼说,Cerebras 计划通过瞄准一个新兴的市场来扩展大型自然语言处理人工智能算法,目前已经与 OpenAI 公司的工程师进行了交谈,该公司在旧金山率先将大型神经网络用于语言学习以及机器人和游戏。


       OpenAI 的创始人之一萨姆·奥特曼(Sam Altman)是 Cerebras 的投资者。当被问及一个 100 倍大的 GPT 版本是否一定更聪明时,萨姆·奥特曼表示,“很难确定,但对此持乐观态度”。

       (声明:本文版权归原作者所有,转发仅为更大范围传播,若有异议请联系我们修改或删除:wang@cgbtek.com