百度沈抖:面向10万卡算力集群升级计算平台能力 文心大模型日调用量超7亿次
瞬间遗失梢
发表于 2024-9-26 13:34:19
1195
0
0
据沈抖观察,过去一年,已经感受到客户的模型训练需求猛增。他介绍,“2024年大模型的产业落地正在加速,目前在千帆大模型平台上,文心大模型日均调用量超过7亿次,累计帮助用户精调了3万个大模型,开发出70多万个企业级应用。”
大模型训练需求增加,意味着所需要的算力集群规模越来越大,与此同时,对模型推理成本的持续下降的预期也越来越高。沈抖表示,这些都对GPU管理的稳定性和有效性提出了更高要求。9月25日,百度升级AI异构计算平台百舸4.0,具备了10万卡集群部署和管理能力。
沈抖介绍,GPU算力集群有三个特征——极致规模、极致高密和极致互联,建一个万卡集群,仅仅是GPU的采购成本就高达几十亿元。沈抖强调,构建算力资源,并不是简单地买来GPU,把GPU连接上就好了,而是需要很多技术,“比如,GPU芯片的型号更多样,管理更复杂;GPU需要执行大量并行计算;数据的传输量变大、对速度的要求更高”,他介绍,因此,百舸计算平台需要支持异构芯片、高速互联、高效存储。
沈抖也表示,管理10万卡的集群与管理万卡集群也有着本质不同。首先,在物理层面,部署10万卡规模的集群,要占据大概10万平方米的空间,相当于14个标准足球场的面积,其次,在能耗方面,这些服务器一天就要消耗大约300万千瓦时的电力,相当于北京市东城区一天的居民用电量。10万卡集群对于空间和能源的巨大需求,远远超过了传统机房部署方式所能承载的范畴,若考虑跨地域部署机房,就又在网络层面带来巨大挑战。此外,十万卡集群中的GPU故障将会非常频繁,有效训练时长占也将迎来新的挑战。
沈抖介绍,针对这些难题,百舸4.0已经构建了十万卡级别的超大规模无拥塞HPN高性能网络、10ms级别超高精度网络监控,以及面向十万卡集群的分钟级故障恢复能力。“百舸4.0正是为部署十万卡大规模集群而设计的。今天的百舸4.0,已经具备了成熟的十万卡集群部署和管理能力,就是要突破这些新挑战,为整个产业提供持续领先的算力平台。”沈抖说。
不仅是百度,越来越多的科技巨头正面向AI大模型需求,提升自身的算力基础设施能力。9月初,马斯克宣布,旗下AI初创公司xAI 打造的超级AI训练集群Colossus已经正式上线,共搭载10万块英伟达H100 GPU加速卡,而在未来几个月将再翻倍增加10万块GPU。9月19日2024年云栖大会上,阿里云也表示,以GPU为主的AI算力将是未来计算范式的主导,阿里云正在从芯片、服务器、网络、存储到散热、供电、数据中心等方面,升级面向未来的AI基础设施。
LogoMoney.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表LogoMoney.com立场,且不构成建议,请谨慎对待。
声明:该文观点仅代表作者本人,本文不代表LogoMoney.com立场,且不构成建议,请谨慎对待。
-
工信部党组书记李乐成会见德国汽车工业协会主席希尔德加德·穆勒 4月27日,工业和信息化部党组书记李乐成在北京会见德国汽车工业协会主席希尔德加德·穆勒,双方就深化中德汽车产业合作进行了交流。李乐成表 ...
- moonlightplay
- 3 天前
- 支持
- 反对
- 回复
- 收藏
-
美国总统特朗普近日在接受媒体采访时表示,他第二个任期不仅治理美国,也治理全世界。 特朗普于4月24日接受了《大西洋》(The Atlantic)月刊采访,这段专访于4月28日发布。 “第一次当总统时,我要做两 ...
- lfancn
- 昨天 12:10
- 支持
- 反对
- 回复
- 收藏
-
4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen3(千问3),参数量为DeepSeek-R1的三分之一,成本大幅下降。据称,该模型性能全面超越R1、OpenAI-o1等领先模型,登顶全球最强开源模型。 千问3是国内首个“ ...
- 风雨中行走
- 前天 10:32
- 支持
- 反对
- 回复
- 收藏
-
东风有限回应武汉工厂关停事宜 据第一财经,4月29日,东风汽车有限公司证实,该公司武汉工厂目前正常运行,后续也不会关停。东风有限称,该公司将在东风与日产母公司的支持下平稳有序发展,持续加速向新能源 ...
- king19831101
- 昨天 09:56
- 支持
- 反对
- 回复
- 收藏