百度沈抖:面向10万卡算力集群升级计算平台能力 文心大模型日调用量超7亿次
瞬间遗失梢
发表于 2024-9-26 13:34:19
1203
0
0
据沈抖观察,过去一年,已经感受到客户的模型训练需求猛增。他介绍,“2024年大模型的产业落地正在加速,目前在千帆大模型平台上,文心大模型日均调用量超过7亿次,累计帮助用户精调了3万个大模型,开发出70多万个企业级应用。”
大模型训练需求增加,意味着所需要的算力集群规模越来越大,与此同时,对模型推理成本的持续下降的预期也越来越高。沈抖表示,这些都对GPU管理的稳定性和有效性提出了更高要求。9月25日,百度升级AI异构计算平台百舸4.0,具备了10万卡集群部署和管理能力。
沈抖介绍,GPU算力集群有三个特征——极致规模、极致高密和极致互联,建一个万卡集群,仅仅是GPU的采购成本就高达几十亿元。沈抖强调,构建算力资源,并不是简单地买来GPU,把GPU连接上就好了,而是需要很多技术,“比如,GPU芯片的型号更多样,管理更复杂;GPU需要执行大量并行计算;数据的传输量变大、对速度的要求更高”,他介绍,因此,百舸计算平台需要支持异构芯片、高速互联、高效存储。
沈抖也表示,管理10万卡的集群与管理万卡集群也有着本质不同。首先,在物理层面,部署10万卡规模的集群,要占据大概10万平方米的空间,相当于14个标准足球场的面积,其次,在能耗方面,这些服务器一天就要消耗大约300万千瓦时的电力,相当于北京市东城区一天的居民用电量。10万卡集群对于空间和能源的巨大需求,远远超过了传统机房部署方式所能承载的范畴,若考虑跨地域部署机房,就又在网络层面带来巨大挑战。此外,十万卡集群中的GPU故障将会非常频繁,有效训练时长占也将迎来新的挑战。
沈抖介绍,针对这些难题,百舸4.0已经构建了十万卡级别的超大规模无拥塞HPN高性能网络、10ms级别超高精度网络监控,以及面向十万卡集群的分钟级故障恢复能力。“百舸4.0正是为部署十万卡大规模集群而设计的。今天的百舸4.0,已经具备了成熟的十万卡集群部署和管理能力,就是要突破这些新挑战,为整个产业提供持续领先的算力平台。”沈抖说。
不仅是百度,越来越多的科技巨头正面向AI大模型需求,提升自身的算力基础设施能力。9月初,马斯克宣布,旗下AI初创公司xAI 打造的超级AI训练集群Colossus已经正式上线,共搭载10万块英伟达H100 GPU加速卡,而在未来几个月将再翻倍增加10万块GPU。9月19日2024年云栖大会上,阿里云也表示,以GPU为主的AI算力将是未来计算范式的主导,阿里云正在从芯片、服务器、网络、存储到散热、供电、数据中心等方面,升级面向未来的AI基础设施。
LogoMoney.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表LogoMoney.com立场,且不构成建议,请谨慎对待。
声明:该文观点仅代表作者本人,本文不代表LogoMoney.com立场,且不构成建议,请谨慎对待。
-
美国总统特朗普表示,美国不能在欧盟销售汽车很“不好”,不寻求达成协议,6月1日起对欧盟征收50%关税。如果他们在这里建工厂,可以讨论延期。特朗普表示,对不在美国生产的手机制造商征收25%的关税。特朗普警告 ...
- zerken
- 2 小时前
- 支持
- 反对
- 收藏
-
中汽协:4月中国品牌乘用车共销售157.1万辆,同比增长23.5% 据中国汽车工业协会统计分析,2025年4月,中国品牌乘用车共销售157.1万辆,环比下降3.5%,同比增长23.5%,占乘用车销售总量的70.7%,销量占有率比 ...
- ELUNSHI
- 4 小时前
- 支持
- 反对
- 收藏
-
美东时间周五,美国总统特朗普威胁苹果称,如果不在美国生产iPhone,就要对其征收至少25%的关税。随后不久,特朗普又再度升级了他的“关税威胁”,并称这条规则也同样适用于三星和其他智能手机制造商。 自上 ...
- breeze0316
- 3 小时前
- 支持
- 反对
- 收藏
-
特朗普再发关税威胁! 当地时间5月23日,特朗普针对苹果公司和欧盟的关税表态,令苹果公司股价、欧洲主要股票市场以及美股均出现大幅波动。 特朗普对关税连续表态全球金融市场巨震 5月23日,美国总统特 ...
- albel921
- 6 小时前
- 支持
- 反对
- 收藏