2023-08-29
来源:半导体行业观察
尽管我们仍处于人工智能革命的边缘,但人工智能已经开始彻底改变我们的生活和工作方式。只有一个问题:人工智能技术非常耗电。据估计,运行大型人工智能模型在其生命周期内产生的排放量比普通美国汽车还要多。
(相关资料图)
人工智能的未来需要能源效率方面的新创新,从模型的设计方式到运行模型的硬件。在一个日益受到气候变化威胁的世界中,人工智能能源效率的任何进步对于跟上人工智能快速扩大的碳足迹都至关重要。
IBM 研究中心在人工智能效率方面的最新突破之一依赖于模拟芯片,即功耗低得多的芯片。在今天发表在《自然》杂志上的一篇论文中,来自世界各地 IBM 实验室的研究人员展示了他们的原型模拟 AI 芯片,用于节能语音识别和转录。他们的设计被用于两个人工智能推理实验,在这两种情况下,模拟芯片都像同类全数字设备一样可靠地执行这些任务,但完成任务的速度更快,消耗的能源更少。
为人工智能推理设计模拟芯片的概念并不新鲜——研究人员多年来一直在考虑这个想法。早在 2021 年,IBM 的一个团队就开发了使用当电脉冲施加到材料上时,相变存储器 (PCM) 就会工作,从而改变设备的电导率。该材料在非晶相和结晶相之间切换,较低的电脉冲将使器件更加结晶,提供较小的电阻,而足够高的电脉冲使器件非晶态,从而产生大电阻。PCM 设备不是记录数字系统中常见的 0 或 1,而是将其状态记录为非晶态和晶态之间的连续值。该值称为突触权重,可以存储在每个 PCM 设备的物理原子配置中。存储器是非易失性的,因此当电源关闭时重量仍会保留。相变存储器将神经网络的权重直接编码到物理芯片上。但该领域之前的研究尚未表明如何将此类芯片用于我们所看到的当今人工智能领域主导的大规模模型。例如,GPT-3 是较大的流行模型之一,拥有 1750 亿个参数或权重。
IBM 研究团队创建的设计可以在每个芯片上编码 3500 万个相变存储设备;换句话说,模型具有多达 1700 万个参数。虽然其规模尚未与当今最先进的生成式人工智能模型相媲美,但将这些芯片组合在一起使其能够像数字芯片一样有效地处理真实人工智能用例的实验。
团队采取的方法是优化在计算中,尤其是在数字信号处理中,MAC 运算是指计算两个数字的乘积并将其添加到累加器(CPU 中处理算术运算的部分)。MAC 是一个基本的计算单元。乘法累加 (MAC) 运算主导深度学习计算。通过读取电阻式非易失性存储器 (NVM) 器件阵列的行,然后沿列收集电流,该团队表明他们可以在存储器内执行 MAC。这样就无需在芯片的内存和计算区域之间或跨芯片移动权重。模拟芯片还可以并行执行许多MAC操作,从而节省时间和能源。
模拟概念具有巨大潜力,但芯片设计和制造也面临重大挑战:模拟计算本质上不精确,必须开发新工艺才能大规模生产高产量 NVM,并将模拟芯片连接到传统数字芯片。系统。但 IBM 的研究人员所做的工作表明,这些芯片在未来可能会像数字芯片一样有用。
测试模拟人工智能硬件
IBM 研究中心的团队设计了两个实验来测试其设计的有效性。第一个围绕关键字话语检测。就像您希望智能扬声器在您大声说“嘿 Siri”或“嘿 Google”时做出响应一样,该团队希望看到他们可以使用他们的芯片设计来识别特定的口语单词。他们构建了一个可监听 12 个单词的系统,在每种情况下,模拟芯片都能以与当今基于软件的系统相同的精度对每个单词做出反应,但速度要快得多。如今等待和侦听特定关键字的系统需要电源才能闲置等待,而团队创建的设计可以在不需要时关闭电源,因为模型权重存储在芯片上的非易失性存储器中。
使用上传到MLCommons(行业基准测试和协作网站)的模型,该团队可以将演示系统的功效与在数字硬件上运行的系统进行比较。由 MLCommons 开发的MLPerf 存储库基准数据显示,IBM 原型比同一网络类别中最佳 MLPerf 提交快七倍,同时保持高精度。该模型使用硬件感知训练在 GPU 上进行训练,然后部署在团队的模拟 AI 芯片上。
第二个实验规模相当大,暗示未来可以使用基于模拟芯片的生成人工智能系统来代替数字芯片。它的目标是使用团队的五个芯片缝合在一起来实现一个大型复杂的模型,并模拟片外数字计算,以展示模拟人工智能的可扩展性。研究人员运行了 MLPerf 上发现的循环神经网络转换器(RNNT)语音到文本模型,以逐个字母地转录一个人所说的内容。RNNT 在当今的许多现实应用中很受欢迎,包括虚拟助手、媒体内容搜索和字幕系统以及临床文档和听写。
该系统包含 5 个芯片上 1.4 亿个 PCM 设备的 4500 万个权重。它能够采集人们说话的音频并以非常接近数字硬件设置的精度进行转录。与第一个演示不同,这个演示并不完全是端到端的,这意味着它确实需要一些片外数字计算。然而,这里涉及的额外计算很少,如果在芯片上实现,最终的能源效率仍然高于当今市场上的产品。
该团队再次使用上传到 MLCommons 的数据,将其网络的功效与在数字硬件上运行的 RNNT 进行比较。MLPerf 数据显示,IBM 原型的每瓦性能(或效率)估计比同类系统高出大约 14 倍。这是 IBM 研究人员能够使用 MLPerf 进行实际测试的第一个模拟系统,因为过去的实验规模太小,无法进行比较。
模拟人工智能的下一步是什么
自然语言任务并不是模拟人工智能可以解决的唯一人工智能问题——IBM 研究人员正在研究许多其他用途。在本月早些时候发表在《自然电子》杂志上的一篇论文中,该团队展示了可以使用节能模拟芯片设计来实现可扩展的混合信号架构,该架构可以在计算机视觉图像识别的 CIFAR-10 图像数据集中实现高精度。
这些芯片由位于东京、苏黎世、纽约约克敦高地和加利福尼亚州阿尔马登实验室的 IBM 研究人员构思和设计,并由外部制造公司制造。相变存储器和金属层在位于奥尔巴尼纳米技术综合体的 IBM 研究实验室进行了处理和验证。
如果您将今天在《自然》杂志上发表的工作的优点(例如大型阵列和并行数据传输)与《自然电子》论文中展示的芯片的强大数字计算模块相结合,您会看到许多构建模块实现快速、低功耗模拟 AI 推理加速器的愿景所需。并将这些设计与硬件弹性训练算法相结合,该团队预计这些人工智能设备将来能为各种人工智能模型提供相当于神经网络精度的软件。
虽然这项工作对于模拟人工智能系统来说是向前迈出的一大步,但在我们在市场上看到包含此类设备的机器之前,还有很多工作要做。该团队在不久的将来的目标是将上述两个工作流整合到一个模拟混合信号芯片中。该团队还在研究如何在他们的芯片上实现基础模型。
模拟人工智能现在正在很大程度上解决当今数字系统正在解决的各种人工智能问题,并且具有功耗意识的模拟人工智能的愿景与我们今天使用的数字系统相结合,变得越来越清晰。
延伸阅读:IBM 用于深度学习推理的模拟 AI 芯片
我们正处于人工智能革命的开端,这场革命将重新定义我们的生活和工作方式。特别是,深度神经网络 (DNN) 彻底改变了人工智能领域,并随着基础模型和生成式人工智能的出现而日益受到重视。。但在传统数字计算架构上运行这些模型限制了它们可实现的性能和能源效率。专门用于人工智能推理的硬件开发已经取得了进展,但其中许多架构在物理上分割了内存和处理单元。这意味着人工智能模型通常存储在离散的内存位置,计算任务需要在内存和处理单元之间不断地整理数据。此过程会减慢计算速度并限制可实现的最大能源效率。
IBM 研究中心一直在研究重塑人工智能计算方式的方法。模拟内存计算,或者简称模拟人工智能,是一种很有前途的方法,可以借用神经网络在生物大脑中运行的关键特征来应对这一挑战。在我们的大脑以及许多其他动物的大脑中,突触的强度(在本例中是“权重”)决定了神经元之间的通信。对于模拟人工智能系统,我们将这些突触权重本地存储在纳米级电阻存储设备的电导值中,例如相变存储器(PCM) 并通过利用电路定律并减少在内存和处理器之间不断发送数据的需要来执行乘法累加 (MAC) 操作,这是 DNN 中的主要计算操作。
为了将模拟人工智能的概念变成现实,需要克服两个关键挑战:这些存储器阵列需要能够以与现有数字系统相当的精度进行计算,并且它们需要能够与其他数字计算单元,以及模拟人工智能芯片上的数字通信结构。
在早前发表在 Nature Electronics 上的一篇论文中,IBM Research 引入了最先进的混合信号模拟 AI 芯片来运行各种 DNN 推理任务,从而在应对这些挑战方面迈出了重要一步。它是第一款经过测试的模拟芯片,与数字芯片一样擅长计算机视觉人工智能任务,同时能效显着提高。
该芯片是在 IBM 的Albany NanoTech Complex中制造的,由 64 个模拟内存计算核心(或块)组成,每个核心包含 256×256 的突触单位单元交叉阵列。每个模块中都集成了紧凑的基于时间的模数转换器,以在模拟世界和数字世界之间进行转换。每个图块还集成了轻量级数字处理单元,执行简单的非线性神经元激活功能和缩放操作。
每个图块可以执行与 DNN 模型的一层相关的计算。突触权重被编码为 PCM 设备的模拟电导值。全局数字处理单元集成在芯片中间,可实现更复杂的操作,这些操作对于执行某些类型的神经网络至关重要。该芯片还在所有块和全局数字处理单元的芯片互连处具有数字通信路径。
使用该芯片,我们对模拟内存计算的计算精度进行了最全面的研究,并在CIFAR-10图像数据集上证明了 92.81% 的准确率。我们相信这是目前报道的使用类似技术的芯片中精度最高的。在本文中,我们还展示了如何将模拟内存计算与多个数字处理单元和数字通信结构无缝结合。测得的每个区域的吞吐量为400 GOPS/mm2 的 8 位输入输出矩阵乘法该芯片的功耗比之前基于电阻式存储器的多核内存计算芯片高出 15 倍以上,同时实现了可比的能源效率。
通过将这种 64 块芯片的面积和能源效率高的模数转换器 (ADC)、高度线性乘法累加计算和强大的数字计算块与我们展示的大规模并行数据传输相结合我们在 2021 年IEEE VLSI 研讨会上推出的 34 块芯片中,现在已经展示了实现快速、低功耗模拟 AI 推理加速器芯片架构愿景所需的许多构建模块。
利用我们的学习成果,我们设计了一个类似的加速器架构,该架构于今年早些时候发布在IEEE Transactions on VLSI systems上。我们的愿景将许多模拟内存计算块与与大规模并行 2D 网格连接的专用数字计算核心相结合。结合我们近年来开发的复杂的硬件感知训练,我们期望这些加速器在未来几年能够在各种模型中提供与软件等效的神经网络精度。