Caidie Cheng, Pek Jun Tiw, Yimao Cai, et al. In-memory computing with emerging nonvolatile memory devices. Sci China Inf Sci, 2021, DOI: /10.1007/s11432-021-3327-7
传统的计算机采用的是以中央处理器为核心的冯诺依曼架构,在该架构中,存储和计算的功能分别由中央处理器和存储器完成。存储器与中央处理器之间通过数据总线互连,中央处理器从存储器中读取数据、进行运算,完成后将结果写回存储器进行存储,导致数据搬运的冯诺依曼瓶颈(如图1所示)。
图1 冯诺依曼架构
此外,由于中央处理器和存储器所实现的功能不同,其性能优化的角度也不同。针对用户对处理器的高性能需求,提升处理器的数据处理速度为主要的优化点,比如提升内部晶体管的开关速度来实现更快的逻辑运算,采用更多的金属布线层来降低互连线延迟,等等。而对于存储器则是缩小存储单元面积,增大存储容量。因为处理器和存储器性能优化的着重点不同,以及处理器厂商和内存厂商相互分离的产业格局,处理器和存储器之间的性能差异越来越大,有数据统计,从1980年至今,处理器和存储器之间的性能差约每年增长50%(如图2所示),存储器的数据访问速度跟不上处理器的数据处理速度,处理器的高性能计算被制约,形成“存储墙”问题。同时,数据总线的有限带宽也限制着数据搬运的速度,严重制约着处理器的性能与效率。
图2 处理器和存储器的性能差(引用自JohnL. Hennessy et al., Elsevier, 2011)
除此之外,数据在存储器和处理器之间的频繁搬运也带来了严重的功耗问题,该功耗约为处理器浮点计算的4~1000倍。在摩尔定律的支持下,晶体管面积的缩小使得其消耗的电压以及电流会以差不多相同的比例缩小,降低了静态功耗,一定程度上弥补了因数据搬运造成的功耗损失。但随着晶体管特征尺寸降低到7nm后,量子隧穿效应使得晶体管产生漏电问题,导致单位功耗密度上升,静态功耗开始不降反升,数据搬运造成的功耗损失无所遁形。根据英特尔的研究显示,半导体工艺到了7nm时代,数据搬运功耗达到35pJ/bit,占比达63.7%。数据传输所导致的功耗损失越来越成为芯片发展的制约,形成“功耗墙”问题。
针对以上计算架构瓶颈,目前已有很多的尝试来解决这些问题,例如采用存储层级结构缓冲处理器和存储器之间的速度失配;引入图处理单元(GPU)实现数据的平行处理;设计张量处理单元(TPU)等加速芯片用以提高算力;采用近存计算减小数据传输距离、降低数据移动的延迟和功耗,等等。然而以上的方式还是在冯诺依曼架构上对“存储墙”和“功耗墙”问题进行弱化,而存算一体架构则可以从根本上打破冯诺依曼计算架构瓶颈。
早在1969年斯坦福研究所的Kautz等人就提出了存算一体的概念,即在存储器中直接进行运算,将存储和计算整合在同一模块中,有效的避免了传统冯诺依曼架构中数据因为来回搬运所造成的功耗损失和时间延迟等问题。但受限于芯片设计复杂度和成本,早期的存算一体研究进入停滞阶段。大数据时代的到来,对计算机高性能计算的速度、密度、功耗和成本提出了更高的要求,并伴随着新型非易失存储器工艺的成熟和研究的深入化,存算一体概念重新得到重视。由于存算一体芯片的高能效优势,未来在边缘计算、物联网等领域有着广阔的应用前景。
针对新型非易失存储器的存算一体应用,北京大学黄如院士、杨玉超研究员与北京科技大学闫小琴教授等合作撰写了专题综述论文:
In-memory computing with emerging nonvolatile memory devices
文章系统总结了近年来新兴非易失存储器件及其在存内计算应用上的最新进展,并展望了设计与制备高性能非易失存储器件的前景及其在存内计算方面的潜力。论文梳理、介绍了一系列具有代表性的非易失存储器件,包括阻变式存储器、相变存储器、铁电场效应晶体管、闪存等,并面向存内计算的要求,从这些存储器件的材料、机理和集成工艺角度出发分析了器件和阵列性能的优化方向。此外,论文详细梳理了近年来新型非易失存储器在存内计算应用上的最新进展,包括人工神经网络、脉冲神经网络、数字逻辑运算及硬件安全等,并分析总结了神经网络应用在推断、训练的不同应用方式上对器件性能的要求。基于目前的研究进展,作者讨论了存内计算在应用方面尚存的挑战,并展望了未来新型非易失存储器在存内计算方面的潜力。