导言
云计算和人工智能的兴起引发了支撑数字经济的基础设施的急剧转变. “无所不在的AI”和“无所不在的云层”的“集体兴奋”背后往往隐藏着巨大的“无所不在的”现象。 能源 和 电力基础设施 现代数据中心现在造成的负担。 在文章中, 我审视了数据中心中新出现的“权力危机 ” — — 是什么, 为什么会发生, 成本是什么(经济、环境、社会),

问题的规模
1.1 国家 在全球范围内的电力消费
-
据国际能源机构(能源机构)称,目前全球数据中心的电力消耗在以下几方面: 415千瓦时 ——2024年约占全球用电量的1.5%. 国际能源机构+2 键能源部能源局. gov.+2 键
-
预测显示,这几乎可以 双 到2030年(T-945 TWh),在国际能源机构的基数设想中,这占当时全球电力消耗的不到3%。 国际能源机构+ 键 1个
-
例如,在美国,数据中心在2024年通过~183 TWh(占美国用电量的4%)被烧毁,预计到2030年将增加一倍以上(到~426 TWh). 皮尤研究中心+ 键 1个
1.2 国家 AI工作量的迅速增加
-
增长不仅来自“更多的数据中心”,而且来自 加快工作量 ——GPU/TPU集群,大型语言模型培训,推论规模. 对于加速服务器(AI专有),国际能源机构预计年增长率为~30%,而传统服务器为~9%。 国际能源机构
-
高盛的报导显示, 到十年末为165% (2023年)受AI & 云基础设施的大力推动. 金发
-
在美国,摩根斯坦利警告 电力短缺 2028年,在人工智能的驱动下,数据中心达到20%。 雅虎金融
1.3 对电网和基础设施的影响
-
随着需求的激增,对传输、发电、电网惯性和当地公用事业的压力会增加。 例如,许多州和公用事业公司已经看到数据中心集群,需要升级到分站和电网互联。 世界资源学会+ 键 1个
-
在某些区域,数据中心已经消耗了当地电力供应的很大一部分,这对当地家庭、工业和基础设施规划产生了冲击效应。 皮尤研究中心
为何如此: 司机
2.1 超规模人工智能和云量
-
向基因AI的转变,大型模型培训,规模推论(实时,24/7),强制要求远高. 电力密度 比前几代服务器工作量. 例如,一个容纳许多GPU的超大规模服务器架可能画出几十千瓦而不是几个. 阿尔谢夫+ 键 1个
-
由于规模经济和性能的需要,这些设施往往会推开冷却,供电,冗余,调时等包件——所有这些都增加了成本和复杂性.
2.2 基于地点的缩放和分组
-
许多数据中心在条件有利的地区(如低电价,更凉爽的气候,税收奖励)进行集群. 但是这种组合产生 局部压力 在网格上,即使全球情况看起来可以管理。 皮尤研究中心
-
支持这些大站点的基础设施——电站分站,高功率变压器,长输电线——往往落后于建设出站速度.
2.3 能源效率低和冷却间接费用
-
除了计算功率抽取, 很大一部分的数据中心电力进入 冷却、通风、电力分配损失。 。 。 。 电源强度越高,辅助性间接费用就越高。 皮尤研究中心+ 键 1个
-
一些冷却系统在效率较低的设施中可消耗高达~30%(或更多)的总数据中心电能. 效率高的超尺度降低,但随着密度的增加,冷却需求会上升。 皮尤研究中心
2.4 可再生一体化和互动挑战
-
许多运营商的目标是利用可再生能源(风能/太阳能)甚至核能为其数据中心提供动力。 然而,可再生能源 间歇,而AI计算时的实时要求往往需要稳定而高质量的动力. 公用事业报告,为增加容量或输电线路而准备的时间长,许可手续复杂,可再生能源难以与负荷相匹配。 商业内幕
-
因此,实际上,许多设施仍然依赖传统来源的矿物燃料后备或电网供电,这增加了排放并使得可持续性说明复杂化。
隐藏费用——服务器账单之外
3.1 经济/电网成本外在因素
-
当数据中心需要大部分电网能力时,公用事业升级(发电、传输、分站)的费用往往会转嫁给 其他客户 ——户口和小企业. 例如,一些美国州的家庭看到较高的账单,因为公用事业必须提高收费以支付基础设施的变化。 皮尤研究中心+ 键 1个
-
在电网容量紧凑的地区,等待数据中心互联的时间可以持续数年——延迟商业启动或强迫搬迁. MLQ 语言问题
3.2 环境和碳足迹影响
-
电力数据中心仍然在很大程度上来自许多区域的化石燃料。 如果使用量翻了一番,再生产品没有相应规模,排放量就会上升。 一些数据中心的扩展可能使依赖化石燃料的基础设施多年来陷入困境。 金融时报+ 键 1个
-
冷却和电力基础设施使用水(特别是蒸发性冷却)——这意味着在受水压的区域建立数据中心 二级环境压力。 。 。 。 维基百科
3.3 国家 机会成本和基础设施竞争
-
大型数据中心使用的土地、电力、水和冷却资源,否则可为制造业、当地社区或小企业服务。 这引起了关于 区域公平特别是如果当地福利(工作、税收)相对于资源消耗有限。
-
对于依赖电力密集型工作流程(例如基于GPU的基准,高通量虚拟化)的企业,对电力和冷却的日益激烈的竞争可能导致:
-
较高的托管/云计算费用
-
能力准备时间较长
-
可能较少使用“优质”电力/低常态基础设施
-
3.4 可靠性和复原力风险
-
负荷过重或接近容量的电网有可能减少松懈程度,减少对故障或极端天气的适应能力,并增加褐出或冗余的可能性。 都是为了数据中心 和 用于周边基础设施(住宅、医院等)。 公用事业公司已经警告过这些压力点。 商业内幕+ 键 1个
它对繁重工作量的意义:基准、虚拟化和云层结构
鉴于你把重点放在全球应用单位/CPU的基准、虚拟化、包装和混合/云布部署上,电力和基础结构方面越来越重要。 以下是如何:
4.1 基准框架需要纳入基础设施成本
-
当设计基准套件或虚拟化堆栈(如:GPU卸载,多节点集群,虚拟化与VMware/VirtualBox,AI推论管道)时,考虑的不只是原始计算度量衡(GFLOPS,带宽),而且还包括: 电力成本、冷却间接费用和每个工作的能源效率。 。 。 。
-
对于云层部署(例如,在Microsoft Azure / AWS / GCP上),成本日益受到基本基础设施限制(电能和冷却)的影响,这可能影响定价、可用性和性能。
4.2 虚拟化和混合计算的影响
-
如果您正在部署混合式或Prem + 云模型(例如, 您的 Windows VMs, GPU/CPU 从本地框卸入云), 您将想要评估 边际费用 和 能源足迹 这些数据中心跳。 有些工作量在当地可能比在电力受限地区容纳的云更有效率(取决于冷却/电费)。
-
虚拟管弦乐需要监测 权力配额,特别是在多租户/高度环境。 工作量安排可能需要在电力率/可用性有利时选择时间/地点。
4.3 地域和能源资源选择问题
-
当选择云或数据中心区域进行部署时, 能源组合,电网容量,电费上涨风险,冷却环境事项. 由于数据中心的渗透,有些区域可能存在电力短缺或未来成本上升的潜在风险。
-
例如,一个备用发电率低的数据中心区域可能会面临费率上升或缩减。 这可能影响到苏丹解放军、费用以及你们繁重工作量的履行。
4.4 可持续性和营销角度
-
如果公布基准结果、文章或模块(正如你经常做的那样),那么增加能量/效率层面(例如“本区域每千瓦时X GFLOPS”)可能会引起听众的兴趣,特别是随着环境压力的增长。
-
为您的IT专业人士和表演爱好者社区, 每项任务的能源成本, (中文(简体) ). 冷却效率, (中文(简体) ). 按基准绘制服务器功率图,添加一个不同的参数。
缓解危机的战略
以下是宏观(工业/公用事业)一级和微观(企业/部署)一级可采取行动的战略。
5.1 联合国 在工业/公用事业一级
-
需求应对方案:大型数据中心可以参加网格-需求-响应计划(高峰期间减少负荷)来缓解网格压力. 例如,Google LLC在美国签署协议,在高峰电网需求期间缩减其AI-data-centre电能使用. 路透社( 路透社)
-
网格和传输投资数字 : 为了支持建设,公用事业需要增加发电能力、输电线路和分站——往往是一个长达几十年的过程。 这方面的拖延增加了瓶颈的风险。 德勤
-
绿色电力来源+微网:数据中心可以提供可再生能源,在现场建造发电,蓄电池或微型电网来减少对紧张电网的依赖.
-
透明度和报告数字 : 运营商需要报告实际用能,冷却度量表,PUE(电能使用效能)等,以便监管者和社区评估影响. 许多分析家都称缺乏披露. 金融时报
5.2 国家 在部署/企业一级
-
仔细选择区域能源( E)数字 : 选择电网容量好,电能率好,再生搭配强,制约风险低的数据中心区域.
-
优化工作量时间安排数字 : 对于繁重的工作量(基准跑道,型号训练),在非高峰时段或电费较低时,时刻表. 利用区域成本/时间差异。
-
电力意识基准和建筑设计数字 : 不仅计算时间,而且计算每个基准消耗的能(kWh). 优化每个结果的能耗,而不仅仅是生化速度.
-
降温和提高效率数字 : 对于前置或边缘部署,考虑高效冷却,液冷,机架密度取舍,服务器选择能效.
-
探索混合/边缘替代品数字 : 在云数据中心可能面临制约或成本较高的情况下,本地或边缘计算可能是一种更好的权衡。
风险与展望
6.1 请检查date=中的日期值 (帮助) 如果增长继续不受限制怎么办?
-
关键分析师警告 电网能力短缺特别是在权力密集地区。 Morgan Stanley对2028年美国数据中心电力短缺20%的估计是一个令人清醒的指标. 雅虎金融
-
如果权力仍然受到限制,潜在的风险包括:
-
较高的业务费用(电价上涨)
-
-
数据中心部署筹备时间较长
-
更频繁地削减或限制计算密集型工作量
-
AI基础设施推出较慢(与玫瑰增长预期相反)
-
如果利用化石燃料来填补空白,环境足迹可能更大
6.2 积极前景/变革杠杆
-
增效: 即使在计算需求上升时,芯片架构的改进,冷却,和工作量的排出,也能减缓电能的增长.
-
可再生能源和核能建设:一些大型技术公司已经与核能或大型可再生能源签署电力购买协议以保持同步. 例如,一些数据中心正在与恢复的核电站配对,以满足需求。 世界报社
-
智能电网集成 : 数据中心可能变成灵活的负荷,将计算转换到电力价格低廉或可再生能源充足(需求-响应)的时候。
-
计量和透明度: 由于利益有关者(政府、投资者、社区)提出更多的问题,数据中心可能公布更多的能源/冷却度量标准,从而能够进行更明智的规划和制定基准。
为您和您的观众推荐的动作
鉴于您对基准、虚拟化、包装、信息技术社区内容的兴趣和工作,您可考虑采取以下具体行动:
-
在基准报告中列入计量能
-
当您运行GPU/CPU基准时,不仅要抓取“运行时间”而且要抓取“消耗的能(kWh)”并计算“每kWh的GFLOPS”或类似的效率措施。
-
比较不同的云/区域不仅涉及成本,而且涉及能源效率。
-
-
为您的网站/论坛写入内容
-
撰写一篇题为“云的能源成本计算:每个信息技术专家应该知道的东西”的文章或系列——剖面电源限制、区域电网压力、冷却关切、成本风险。
-
-
为“按功率和性能选择云区”提供指南,以补充其他注重性能/虚拟化的内容。
-
虚拟化和混合使用案例
-
探索前置GPU/CPU下载(你的GPU用GTX 770 + Quadro K420等进行下载计算)如何将能量与受限区域内的超尺度云群相比较.
-
为您社区发布案例研究或工具(如Power Profile,用于测量GPU集群能的插件).
-
-
包装和部署考虑
-
在设计模块/插件/应用程序(例如,你的Joomla模块,GPU/AI基准应用)时,考虑添加“eco-mode”选项:例如,在平时安排工作、节流用于低功率抽取、记录功率消耗度量。
-
-
对于虚拟化(VMware/VirtualBox等),记录减少功率-draw的最佳做法,例如,避免过度提供,合并闲置的工作量,允许冷却/主机功率-特长.
-
与云供应商的透明性接触
-
跟踪云/数据中心提供方公布的度量衡(PUE,能量组合,用水),并在您的内容中突出显示.
-
鼓励社区成员问:“该区域的能源是什么? 备用电网容量是多少? 是否存在权力配额/停产风险? “
-
结论
云和AI的隐藏成本不仅仅是订阅费中的美元, 大规模、迅速加速的电力和基础设施负担 这是所有这些“计算周期”背后的原因。 数据中心已不再是互联网的被动后室;它们是 工业规模的电力客户 他们的成长对公用事业、电网、家庭、工业、环境以及像你这样的注重业绩的信息技术专业人员具有深远的影响。
危机(或或许是挑战)是真实的:需求增加、供应受限、电网老化、冷却和环境负担都表明有必要 更负责任的规划, (中文(简体) ). 区域意识部署, (中文(简体) ). 节能建筑,以及 透明度量衡。 。 。 。 对于任何构建繁重工作量的人物——制定GPU/CPU的基准,虚拟化,包装模块,云部署——这个维度不能再被忽略了.


11277
IT Pro 



















