欢迎进入苏州美明电子科技有限公司官方网站!

苏州美明电子

MeimingIC.com

拥抱ASIC,AMD发布基于5纳米VPU的加速卡
来源: | 作者:chipnews | 发布时间: 2023-04-10 | 397 次浏览 | 分享到:

在谈到为何以350亿美元的估值收购Xilinx时,AMD方面曾表示,未来十年,高性能计算将处于几乎所有影响未来世界的主要大趋势的核心。


“虽然 CPU 和 GPU 仍将是这些设备的关键计算部件,但在一个算法不断进步、新标准不断涌现的世界里,加速这些新兴的和不断变化的工作负载至关重要,我们预见到对自适应计算能力的需求将不断增长。”AMD方面进一步指出。


“赛灵思领先的 FPGA、自适应 SoC、人工智能引擎和软件专业知识将赋能AMD,带来超强的高性能和自适应计算解决方案组合并帮助我们在云计算、边缘计算和智能设备市场机遇中占据更大份额。”AMD 董事会主席及 CEO Lisa Su补充说。


从AMD近几年的发展看来,他们正在践行其当初收购时的承诺,日前推出的、专为推动大规模直播互动流媒体服务新时代而打造的媒体加速器Alveo MA35D正是其中一个体现。



未来的流媒体市场,CPU“疲于奔命”


据AMD 视频战略与市场开发主管 Sean Gardner所说,之所以公司会推出这样一款产品,与当前流媒体市场现状有着莫大的关系。


他首先表示,在当前的实况直播市场,无论是在营收方面,还是在基础设施的部署方面,增长都非常迅速。2021年的调查数据显示,全球视频市场超70%的份额由直播内容主导。而当前传统的广播流媒体,主要是由软件和CPU提供支持。传统的直播活动中也主要采取一对多的模式,由于视频流的数量比较少,同时时延比较可控,因而可以用比较传统的现有网络形式来支持直播服务。



他同时也指出,下一代的直播场景则主要为多对多模式(即每个人都是主播),届时这些主播既是数据源也是接收器,这样的场景也包括连线观赏、直播购物、在线拍卖和社交流媒体等。这样的应用场景也要求对数据的处理更加贴近用户,要求把这样的处理去转移到网络的边缘。


“在边缘来处理这些应用场景,意味着原来通过云集中的方式能够获得的经济效益已经不复存在了,因此也就需要彻底改变基础设施部署模式。换而言之,随着当前流媒体直播对时延的要求越来越高,部署在边缘的成本也在提高,这进而驱使我们致力于开发新一代的实况交互式流媒体解决方案。” Sean Gardner说。


在他看来,这样的实时、交互式的流媒体应用场景要求低时延和大容量。新的架构才能够适应这些变化带来的成本压力。而针对这些需求,AMD带来了公司新一代的产品——AMD Alveo MA35D 媒体加速器。


5纳米ASIC,助力媒体加速卡


在具体介绍这个产品之前,我们必须首先指出,虽然这是AMD品牌旗下的首款媒体加速器,但这其实是Xilinx之前发布产品的后续产品。


早在2018年,Xilinx就首次推出了面向数据中心设计的功能强大的加速器卡——Alveo。用户在通过Alveo运行实时机器学习推断以及视频处理、基因组学、数据分析等关键的数据中心应用,有望以较低时延实现突破性的性能提升。从相关介绍可以看到,Alveo系列已经面向对个领域发布了多款产品,而流媒体加速无疑其较为重视的一个市场。


据介绍,Alveo MA35D 采用专用视频处理单元加速整体视频处理。通过在视频处理单元上执行所有视频处理功能,可以最大限度减少 CPU 和加速器之间的数据迁移,进而降低整体时延并实现通道密度最大化,达到每卡高达 32 路 1080p60、8 路 4Kp60 或 4 路 8Kp30 的转码密度。该平台还针对主流 H.264 和 H.265 编解码器提供了超低时延支持,并配备下一代 AV1 转码器引擎,可节省高达 52% 的带宽。



与其前一代产品Alveo U30 一样,MA35D 是专为数据中心设计的纯视频编码卡。作为一款相对简单的产品,MA35D 旨在通过专注于此来更优化、更高效地进行视频编码。从测试数据看来,MA35D 也比上一代也获得了更多维度的提升。


AMD表示,相较于上一代 Alveo U30 媒体加速器,Alveo MA35D 的通道密度提高了 4 倍、每通道功耗降低了 2 倍、时延降低了 4 倍。此外,Alveo MA35D在方方面面都有非常优异出色的表现,而且还有很多额外的功能和新的能力。在功耗方面,该卡的正式 TDP 为 50 瓦,但实际上 AMD 发现该卡的典型功耗接近约 35 瓦,或者 1080p60 的每“流 ”(steam)1 瓦多一点。与 U30 相比,每条“流”的能耗降低了 66%,U30 对于单个 1080p 流的功耗略高于 3W。



按照Sean Gardner所说,之所以Alveo MA35D能获得如此出色表现,首先归功于其集成的两个新的专用视频处理单元(VPU)。


据介绍,MA35D 集成了两个5nm VPU,每个都有自己的 8GB LPDDR5 内存池和一个返回主机处理器的 PCIe 5.0 x4 连接。如上图所示,在芯片四角还有四个分离的支持AV1压缩标准的编码器(MP)单元模块,这使得客户在部署应用的时候,能够享受最大的灵活性。在部署新的压缩标准时,客户也可以一边用旧的标准,一边加入新的标准。


AMD也表示,通过在视频处理单元上执行所有视频处理功能,可以最大限度减少 CPU 和加速器之间的数据迁移,进而降低整体时延并实现通道密度最大化,达到每卡高达 32 路 1080p60、8 路 4Kp60 或 4 路 8Kp30 的转码密度。该平台还针对主流 H.264 和 H.265 编解码器提供了超低时延支持,并配备下一代 AV1 转码器引擎,可节省高达 52% 的带宽。


AMD还给这款产品集成了AI 赋能智能视频处理,该加速器具备集成的人工智能( AI )处理器和专用视频质量引擎,能够以更低的带宽提升体验质量。AI 处理器会逐帧评估内容并动态调整编码器设置,以提高感知视觉质量,同时最大限度降低比特率。优化技术则包括用于文本和面部分辨率的感兴趣区域( ROI )编码、用于纠正剧烈运动和复杂场景的伪影检测,以及用于比特率优化预测洞察的内容感知编码。


为了扩展大容量流媒体服务需要将每服务器的通道数量最大化、以及每流功耗与带宽最小化。AMD通过以每流 1 瓦的功率每卡提供多达 32 路 1080p60 转码密度,一个配备 8 张卡的 1U 机架式服务器可提供 256 个通道,以实现每服务器、每机架或每数据中心的转码密度最大化。


“因此我们在Alveo MA35D创新的过程当中,引入了人工智能分析视频的内容。再加上Alveo MA35D人工智能和机器学习的能力,我们就能够更好的理解视频的特点,比如说视频复杂程度如何、类型如何,是合成的电脑游戏,还是说一些自然的内容。有了人工智能和机器学习获得的洞见和智能,我们能够以更高的效率把这种动态的内容传导给编码器。通过这样的方式使我们可以在做动态视频处理的时候,降低带宽和存储要求的同时提高效率。”Sean Gardner补充说。

据了解,该平台可通过 AMD 媒体加速软件开发套件( SDK )访问,支持广泛使用的 FFmpeg 和 Gstreamer 视频框架,易于开发。


写在最后


在Sean Gardner看来,Alveo MA35D对于AMD的CPU和GPU来说并非竞品,而是补充性的产品。因为所有的这些产品都各有所长,而且效率都非常高。


他指出,CPU可以提供非常高性能的压缩。但是如果你要处理的是几百万个流视频,那么经济性就不高了。如果要要求图像的呈现的应用场景的话,GPU就是最好的一个工具。也有一些应用需要三者协作来提供非常具有成本效益和高性能的解决方案。例如云电竞或云游戏,GPU尽可能多的去呈现游戏内容,Alveo MA35D完成所有的低时延高质量的编码,EPYC CPU可以完成所有的应用级的系统处理。这样的组合能够给客户提供最高的密度,同时以非常优惠的价位和很低的功耗来实现。


笔者则认为,AMD推出的这个5nm的VPU 还标志着 Alveo 视频编码器系列向完全基于 ASIC 的产品过渡。众所周知,Xilinx 以其可编程 FPGA 而闻名,上一代的Alveo U30 处理器将硬逻辑用于其视频编码块,但它与 FPGA 结构网络相结合。所以该产品仍然是 ASIC 和 FPGA 设计的混合体。


但MA35D 搭载的 VPU 则是久经考验的真正 ASIC,因为没有 FPGA 元件,公司能够充分利用专用产品使用固定功能逻辑的能效优势。