国际电子商情讯,根据美媒近日披露,英伟达新一代Blackwell AI GPU已经面临延迟交付,并遇到了配套服务器过热的问题,客户担忧没有足够的时间让新数据中心启动和运行。
根据知情人士的爆料,Blackwell AI GPU装入可容纳多达72颗芯片的服务器机架时会出现过热的问题,这些机器预计每个机架的功耗高达120kW。而过热会限制GPU性能并有损坏组件的风险。
目前,包括英伟达员工、客户和供应商在内的多方面消息称,英伟达已多次要求供应商调整机架设计,但这种过热的问题依然存在。
外媒的报道称,一些英伟达客户担心没有足够的时间推进新数据中心的建设运行,包括元宇宙、谷歌和微软等在内的科技巨头均受到影响。
对此,有多家媒体致电英伟达。英伟达方面对媒体回应表示:“我们正在与领先的云服务提供商合作,将其作为我们工程团队和流程中不可或缺的一部分。工程迭代是正常且符合预期的。将GB200这一迄今为止最先进的系统集成到各种数据中心环境中,需要与我们的客户共同设计。”
据悉,Blackwell用作培训大语言AI模型,其速度比英伟达上一代芯片H100的速度快2.5倍。该芯片此前预计发货时间为今年第二季度。
据悉,Blackwell是英伟达在2024年3月推出的新一代AI芯片与超级计算平台。Blackwell的强悍性能一直为大家津津乐道,它由多个英伟达芯片组成,包括Blackwell GPU、Grace CPU、BlueField数据处理单元、ConnectX网络接口卡、NVLink交换机、Spectrum以太网交换机和Quantum InfiniBand交换机,涵盖了从CPU和GPU计算到用于互连的不同类型的网络,可支持多达10万亿参数的模型进行AI训练和实时大语言模型(LLM)推理。
Blackwell的具体性能还包括以下:
信息来源:ESM China
日期:2024年11月20日