智算中心的困境：有卡不代表有算力

欢迎进入苏州美明电子科技有限公司官方网站！

设为首页加入收藏

首页 ∷ 行业资讯 ∷ 智算中心的困境：有卡不代表有算力

智算中心的困境：有卡不代表有算力

来源: | 作者:chipnews | 发布时间: 2024-09-23 | 1012 次浏览 | 分享到:

“如果让你重回2018年，你会做什么？”

“先囤一大批英伟达的卡。”

这段对话虽然是网络段子，但也同样反映了厂商在全球囤卡找卡的疯狂。众所周知，这两年GPU一直处于供应紧张的状态，但我们却遇到了这样一个真实案例：一家传统IDC厂商手上囤了很多GPU卡，却处于闲置状态。

这反映当下的一种现状：智算虽火热，但市场上还存在很多用卡效率不高的情况，换而言之，有卡也不一定有算力。

智算火热，用卡效率不高被关注

进一步追问，为何会用卡效率不高？

因为智算不仅仅是卡的问题，而是一个软硬件协调的系统，涉及算、存、网等多个核心能力，当软件能力不够的时候，卡自身的发挥也会受限。腾讯云副总裁，云计算资深技术专家沙开波表示。

这就像买了一辆顶级跑车，但自己不太懂赛车技术，也没有专业的赛车团队来调试车辆和规划最佳行驶路线，那就只能在普通道路上行驶。

这是所有IDC厂商不愿意看到的，因为这不仅是一个资源闲置问题，更是一个转型机遇问题，用好这些卡，IDC厂商也可顺势转型到AIDC（智算中心）厂商，开拓新业务。

当然，并非仅IDC厂商面临用卡效率不高，对于很多大模型公司而言，眼下他们也亟待算力效率的提升，尤其是在今年，模型训练参数量是越来越大，去年可能大家都还在用十亿、百亿的参数规模，今年这一规模数字已经“卷”到了千亿，如腾讯混元大模型就扩展为万亿参数规模。

如此庞大的参数量，也让底层的算力集群规模越来越大，有业内从业者称，今年起，所有智算集群万卡是最低标配，万卡以上的智算集群才有价值。

集群规模的不断扩大，无疑对底层AI基础设施的处理效率提出更高的挑战，比如如何让超大规模组网互联、集群有效计算效率、训练高稳定性与可用性、故障快速定位与可诊断工具等等。这恰似你分别想提升一千个人的协作效率，和一万个人协作的协作效率，二者难度不可同日而语。

大模型计算效率不高带来更直接的问题就是，模型训练成本进一步增加，而训练成本，又是眼下国内大模型公司的敏感点。

一方面，大模型训练烧钱是众所皆知，另一方面，今年资本市场对国内大模型公司投资也在趋于理性，去年拿到投资的大模型公司有两百多家，而今年上半年，只有像月之暗面、智谱等一些头部大模型公司拿了融资。

烧钱不能永无止境，提升用卡效率迫在眉睫。作为头部云厂商之一，腾讯云已悄然落子。

9月5日，腾讯云在腾讯全球数字生态大会上发布 AI Infra品牌—— 腾讯云智算，将旗下高性能计算HCC、高性能网络IHN星脉、高性能云存储、加速框架、容器、向量数据库、智算套件等单项产品能力整合，帮助产业突破技术瓶颈，加速释放AI生产力。

智算启幕，破客户难题坚冰

事实上，在此次发布腾讯云智算品牌之前，腾讯云早已经在迭代和对外输出智算技术与产品，来提升智算性能，降低使用成本。

去年4月，腾讯云正式发布面向大模型训练的新一代HCC高性能计算集群；去年6月，腾讯云首次对外完整披露自研星脉高性能计算网络，后来，腾讯云又发布了AIGC云存储解决方案；推出了源于公有云的成熟实践的专有云智算套件，支撑企业基于自有硬件搭建高性能的专有智算云。

而眼下这一节点，之所以要成立腾讯云智算品牌，据沙开波表示，其一是AI大模型的兴起，需求端对整个云基础设施提出更高级的要求；其二是腾讯云在AI 大模型的驱动下，也对云基础设施很多能力做了进化。成立腾讯云智算品牌，就是为让更多客户了解腾讯云智算的能力，同时将这些能力输出，更好地支持客户的业务发展。

客户在大模型训练过程中往往会遇到这几个问题：

第一是如何提升训练效率，减少故障率？

训练效率不高，可能源于几个环节，第一是在训练启动时间长。由于软硬件等多种因素等原因，目前业内许多训练启动时间长达一个月之久。

第二是在训练过程中，经常发生故障。大模型训练的故障率是个不容小觑的问题，据统计，GPU故障率是CPU的120倍以上。前不久，Meta发布了其最新的Llama 3 405B大语言模型，并公布了一项研究成果，405B模型通过由16384张英伟达H100 80G GPU组成的服务器集群，训练运行持续了54天。在这54天中，集群遭遇了419次意外组件故障，平均每3小时就发生一次故障。

而腾讯云通过整合软硬件技术能力，腾讯云智算集群从机器上架到开始训练可以做到只需1天，而在故障数上，腾讯云的集群千卡单日故障数已经刷新到0.16，是行业水平的1/3。

之所以能有此成果，这与其网络、存储产品，加速框架、向量数据库以及智算套件等有关。据沙开波介绍，腾讯云自研的星脉网络通过流量和拓扑自动感知进行调度，提升网络吞吐，故障时定位问题链路并处理，减少训练中断。在万卡集群下，网络故障可实现 1 分钟发现，3 分钟定位，5 分钟解决。而在千卡集群的通信时间缩短到6%，是业界一半。而腾讯云高性能并行文件存储CFS Turbo支持千卡并发读写。

此外，在加速框架上，腾讯云的TACO也为云端计算效率提速，据腾讯云相关人士介绍，在同样的硬件环境下，原本每秒只能处理100个tokens的系统，在使用TACO后可以提升至每秒处理200甚至300个tokens，并且处理的tokens增多，并没有带来太多延迟。

第二是训练如何更加兼容、部署更为灵活？

以前模型训练任务往往是单一厂商芯片服务于单一任务，当前芯片供给紧俏的背景下，各大芯片厂商持续加大在 GPU 方面的投入与布局，在越来越多的智算中心里，不同型号、不同厂商的卡进行异构组网的情况愈发普遍。与此同时，当下众多行业对数据安全合规有着极高的要求，不少训练和推理只能在本地数据中心进行。

为了解决多类型卡的训练问题，腾讯云目前采用的“一云多芯”架构，可以适配、管理、调度多种CPU和GPU芯片，能够有效降低供应链风险，同时满足不同业务对于不同算力的需求。

而针对部署问题，腾讯云推出专有云智算套件，支撑企业基于自有硬件搭建高性能专有智算云，满足企业在私有算力环境下训练大模型的诉求。这一套件跟公有云有一样的配置，星脉网络、AIGC云存储、Taco都在这套打包的方案内。

如今，据沙开波透露，腾讯云智算已经服务了90%以上的大模型企业，而且这些公司也都实现了大模型训练成本下降，某大模型客户在采用腾讯云的整套算力解决后，一年的成本下降了2000万。

除了大模型客户外，一些做AI应用的客户也在使用这套方案。去年下半年，某社区电商企业在做AI应用时，把将海外芯片更换为腾讯云在公有云上提供的国产芯片。在保持主要业务指标不变的前提下，该公司实现了21天内完成芯片替换，两周左右完成模型适配，一周左右完成物理框架改造。此外，开头提到的IDC公司，也在与腾讯云的合作下，在半年内将GPU资源几乎全部售出。