- Üksikasjad
- Kirjutas: IT Pro
- Kategooria: Blog
- Klikke: 5997
Sissejuhatus
NVIDIA tegi seda jälle.
Ettevõte hiljuti postitas finantstulemusi, mis mitte ainult ei löönud Wall Streeti ootusi, vaid purustasid need. See on kinnitanud NVIDIA's positsiooni keskse liikumapaneva jõuna jätkuva tehisintellekti revolutsiooni taga.
Tulud tulid dramaatiliselt suurem kui analüütikud ennustasid, mille peamiseks põhjuseks on suurenev nõudlus andmekeskuse GPUs, kiirendades AI investeeringuid, ja rekord ettevõtete kulutused suure jõudlusega arvuti infrastruktuuri.
Aga NVIDIA's ülejõudlus ei ole lihtsalt parem bilanss. See näitab sügavamaid muutusi kogu tehnoloogiamaastikul, alates AI arvutada ökonoomika pilve hinna mudeleid, GPU puudus, ja kuidas ettevõtted ehitada AI-jõuga tooteid tulevikus.
Käesolevas artiklis jaotatakse see, mida NVIDIA's sissetulekute kasv tähendab ja mis tuleb AI turu jaoks.

NVIDIA ületas tuluootusi suure varuga
Viimase mitme kvartali jooksul on NVIDIA näidanud plahvatuslikku kasvu, mis on tingitud peamiselt tehisintellektist ja andmekeskuse nõudlusest.
Põhipunktid:
-
Andmekeskuse jaotus on nüüd ettevõtte suurim tulumootor;
-
Täiendõppe ja järeltöökoormus on hüppeliselt suurenenud
-
Hyperscalerid kulutavad agressiivselt GPU klastritele
-
Ettevõtete vastuvõtmine on alles algusjärgus
-
Nõudlus ületab pakkumise ja tahab aastaid
Taust:
NVIDIA's kvartalitulu ületab täna Kogu aasta kokku vaid mõne aasta eest.
See on pooljuhtide tööstuse enneolematu kasv.
Miks analüütikud alahinnanud NVIDIA (uuesti)
Wall Street on korduvalt alahinnanud NVIDIAt kolmel põhjusel:
1. AI turg laieneb prognoositust kiiremini
Nõudlus suureneb veerandi võrra.
2. Pilvekulud on muutunud
Hyperskalers on taastada oma eelarve umbes AI töökoormust.
3. Ettevõtete nõudlus suureneb
Tööstused, kes võtavad tehisintellekti kiiresti vastu:
-
rahandus
-
tervishoid
-
energia
-
logistika
-
kaitse
-
küberturvalisus;
AI ei ole enam eksperimentaalne.
Nüüd on see strateegiline infrastruktuur.
Sealt, kust laekuvad tulud
Andmekeskus GPUs
Need on kroonijuveelid:
-
A100
-
H100
-
H200
-
GH200
-
tulemas B100 / B200
Need kiibid töötavad. peaaegu kõik suuremahulised tehisintellektikoolitused kogu maailmas.
Pilveteenuse osutajad
AWS, Microsoft Azure, Google Cloud, Oracle Cloud, Tencent, Alibaba ~ kõik laienevad GPU laevastikud agressiivselt.
Näidisearendajad
-
OpenAI
-
Antropilised
-
Meta-AI
-
x AI
-
Mistral
-
Cohere
-
Stabiilsus AI
...oskavad GPUsid suurtes kogustes.
Ettevõtte tehisintellekti väljaehitamine
Pangad, haiglad, logistikafirmad ja isegi valitsused ostavad nüüd arvutusklastreid.
See pole enam ainult Silicon Valley hüpe.
Kuidas see muudab võimu tasakaalu AI turul
NVIDIA'de purustamise tulemused kinnitavad uut reaalsust:
AI-arvutus = tuleviku põhiinfrastruktuur
Ettevõtted, kes kontrollivad AI riistvara kontrolli:
-
AI innovatsiooni tempo
-
mudelikoolituse ökonoomika;
-
juurdepääs võimsuse arvutamisele;
-
Algatamise elujõulisus
-
konkureeriv kaitse konkurentide vastu
NVIDIA ei müü ainult riistvara.
See kujundab globaalse tehisintellektituru suunda.
Mida see tähendab GPU pakkumise puudujääk
Väike vastus:
Puudumine süveneb, enne kui see leevendab.
Siin on miks:
-
AI investeeringud kiirenevad
-
hüperskalaatorid koguvad GPUsid
-
nõudlus ületab vahvlite võimsust;
-
Järgmise põlvkonna kiibid vajavad täiustatud pakendit
-
Kõrgsageduslik (HBM) tarne on endiselt piiratud
Isegi suurenenud tootmise korral kasvab nõudlus kiiremini.
Oodata:
-
ettevõtete GPUde pikad ooteajad;
-
hinnalisand pilves
-
tarbija GPU hinnad jäävad tavalisest kõrgemad
Sel aastal ei toimu tarnetasakaalu.
Võimalik, et mitte järgmisel aastal.
Mõju pilvandmetöötluse turule
NVIDIA's tulu tulemused on tohutu laineline mõju üle pilve hinna ja pilve arvutada.
Pilveteenuse osutajad tõstavad tehisintellekti hinda
Nõudlus lubab seda.
GPU juhtumid jäävad ületellituks
Treeningjärjekorrad kasvavad.
Väiksemaid pilvi võib välja pigistada
NVIDIA pakkumine soosib esmalt hiiglasi.
AI-as-a-Service laieneb
Järelhostimine
koolitusklastrid
mudel APIs
GPU liisinguplatvormid
Cloud AI hinnakujundus sõltub nüüd otseselt NVIDIA's võime toota ja laeva riistvara.
Mõju tehisintellekti idufirmadele
NVIDIA'de plahvatuslik tulu on nii hea kui halb uudis tehisintellekti idufirmadele.
Hea:
-
Arvutada rohkem kättesaadavust
-
Rohkem investeeringuid riistvarasse
-
Pilvemahu suurendamine
-
Kiirem mudelite täiustamine
Halb:
-
Suuremad kulud
-
Pikemad broneeringud ooteajad
-
Suurem konkurents suurte mängijate poolt
-
Hinnasurve tehisintellekti tootmistsüklite lõikes
Võidujooks on süvenenud.
Ja sissepääs on tõusnud.
Mõju Big Techile
Ettevõtted nagu Microsoft, Meta ja Google läbivad strateegilise ümberkujundamise:
AI arvutada nüüd käsitletakse:
-
konkurentsivõimeline vallikraav,
-
mitmeaastane MIRAPEXi prioriteet;
-
riiklik eelisressurss;
NVIDIA's tuluhüpe tõestab, et hüperkalkulaatorid investeerivad kiiresti miljardeid.
Oodata:
-
suuremad GPU klastrid
-
rohkem piirkondlikke AI superarvutid
-
Varalisemad mudelid
-
rohkem tehisintellektiga pilvplatvorme
AI on muutunud strateegilise planeerimise tsükli keskmesse.
Mis tuleb NVRIDIAle järgmiseks?
NVIDIA ei aeglusta.
Tulevased katalüsaatorid on järgmised:
-
Blackwelli GPU arhitektuur
-
järgmise põlvkonna tehisintellekti kiirendid
-
jätkuv CUDA ökosüsteemi lukustamine
-
IBMi mälu integreerimise edusammud
-
Ettevõtte AI vastuvõtmine
-
Eeliseturud
-
Auto AI arvutada tõusu
Ja kriitiliselt:
NVIDIA muundub kiibitootjalt → täieliku AI platvormi pakkujalt.
Tarkvara + riistvara + ökosüsteem.
Kuidas see kujundab tehisintellekti tulevikku
NVIDIA lööb ootusi ümber tööstuse eeldused:
AI kasv ei aeglustu
See kiirendab.
Arvuta nõudlus on struktuuriline
Mitte tsükliline.
Kulutused jätkavad skaleerimist
Mitte kitsenev.
AI buum on ainult esimeses etapis.
See on kümne aasta pikkuse laienemise algus.
Järeldus
Tuluootusi ületav NVIDIA ei ole pelgalt finantsalane verstapost.
See kinnitab:
-
AI on tulevase majanduskasvu põhimootor.
-
andmekeskuse GPUd on maailma kõige väärtuslikum arvutusressurss;
-
GPU puudujääk jätkub;
-
pilvede hinnamudelid arenevad;
-
ja ettevõtte AI vastuvõtmine kiireneb kogu maailmas.
Lühidalt:
NVIDIA ei saa kasu ainult tehisintellektibuumist.
NVIDIA võimaldab seda.
Kuni AI rass jätkub ja ei ole märke aeglustumisest, jääb NVVIDIA maailma strateegiliselt kõige olulisemaks ettevõtteks.
- Üksikasjad
- Kirjutas: IT Pro
- Kategooria: Blog
- Klikke: 5199
Introduction
Modern computing runs on silicon—and GPUs have become the new gold. Whether for gaming, AI research, VFX, 3D rendering, crypto-mining, or data-center operations, demand for powerful graphics processors has exploded in the past several years. The result has been a prolonged, global GPU shortage that has affected everyone from individual consumers to hyperscale cloud providers.
What began as a supply disruption has evolved into a complex, multi-layered global crisis involving advanced semiconductor manufacturing bottlenecks, geopolitical constraints, massive AI investment, gaming demand, soaring cloud consumption, and technology transitions.
This article breaks down why global GPU scarcity persists, why new chips remain expensive, and—most importantly—when (and if) this shortage will finally end.

1. Why GPUs Are Different From Other Chips
GPUs are not CPUs.
They require:
-
more transistors per mm²
-
more advanced lithography (down to 3nm / 5nm)
-
high-bandwidth memory integration (HBM)
-
advanced packaging (CoWoS, EMIB, 3D-stacking)
-
extremely low defect tolerance
-
specialized fabrication lines
-
limited global suppliers
This means:
-
GPU production cannot simply be “scaled up”
-
new factories cannot be switched on overnight
-
only a handful of companies can make them at all
95%+ of bleeding-edge GPU production is dependent on TSMC, the Taiwanese semiconductor giant.
That is a single point of global failure.
2. What Triggered the Shortage? (Multiple Waves)
The GPU shortage is not one event—it's an overlapping series of waves:
Wave 1 — Pandemic Supply Disruption (2020-2021)
Factories closed.
Shipping froze.
Demand spiked.
Result: zero inventory at launch for most consumer GPUs.
Wave 2 — Crypto Mining Frenzy
Ethereum mining sent GPU demand through the roof.
Gamers competed with industrial-scale mining farms.
Prices shot up 200%–400%.
Wave 3 — Cloud Computing Explosion
Hyperscalers expanded GPU capacity for AI dramatically:
-
AWS
-
Google Cloud
-
Microsoft Azure
-
Oracle Cloud
-
Tencent Cloud
-
Alibaba Cloud
Every hyperscaler ordered millions of units.
Wave 4 — AI Gold Rush (2023-2025)
The rise of:
-
ChatGPT
-
GPT-4 family
-
Llama models
-
Stable Diffusion
-
MidJourney
-
AI training everywhere
turned GPUs into strategic infrastructure.
Corporations, governments, and defense contractors entered the bidding war.
Wave 5 — Semiconductor Packaging Bottleneck
CoWoS packaging bottleneck delayed shipments by months.
It does not matter if a GPU die is ready—if it cannot be bonded with HBM, it is unusable.
3. Why AI Is the Main Driver Now
This is crucial:
AI is the #1 consumer of high-end GPUs today.
Generative AI requires:
-
billions-scale training parameters
-
continuous inference workloads
-
enormous parallel computation capability
-
high-bandwidth memory throughput
Training a frontier-tier model can require tens of thousands of H100/H200 class GPUs—and that’s for a single model.
Then, inference (ongoing use) consumes even more hardware over time.
Demand has gone from thousands → hundreds of thousands → millions of units globally.
No manufacturing industry can absorb that shock instantly.
4. NVIDIA Dominance = Market Bottleneck
NVIDIA controls:
-
80–90% of the global AI GPU market
-
nearly all hyperscale training hardware
-
CUDA ecosystem lock-in
GPU quantity is limited.
GPU alternatives are limited.
GPU switching costs are enormous.
Companies have no choice but to wait and pay.
5. Why Consumer & Gaming GPUs Remain Expensive
You would think consumer GPUs would be cheap by now.
However:
1. Manufacturing prioritizes data-center GPUs
(H100, GH200, B200 etc.)
because…
profit margin per chip:
$2000+ → $30,000+
vs
consumer card:
$200 → $1600
Manufacturers prefer the profitable chips.
2. Gaming demand remains high
New AAA titles require more power.
3. Used market is dry
Mining collapse flooded supply once—but that supply is now gone.
4. AI hobbyists are now competing with gamers
More competition → higher pricing.
6. Supply Bottlenecks Explained
The biggest constraints today:
• Lithography
Only TSMC, Samsung, and Intel can build advanced nodes.
• Packaging capacity
CoWoS is limited and complex.
• HBM production
Only a few vendors supply:
-
SK Hynix
-
Samsung
-
Micron
and yield rates are low.
• Inventory depletion
no warehouse stock exists anymore.
• Shipping logistics
hardware travels through dozens of steps:
fab → packaging → memory → board assembly → testing → validation → distribution
7. Geopolitical Risk Amplifies Everything
GPU production depends massively on Taiwan.
Risk factors include:
-
China–Taiwan tensions
-
U.S. export controls
-
sanctions
-
trade restrictions
-
chip embargo policies
The U.S. controls access to AI chips for China.
China is now stockpiling aggressively.
This drives additional scarcity.
8. When Will the GPU Shortage Actually End?
Short answer:
Not soon.
Realistic timeline considerations:
2025
-
supply constraints loosen slightly
-
new fabs begin limited ramp
-
more HBM availability
-
but AI demand increasing faster than supply
2026
-
additional packaging lines completed
-
some regions see price stabilization
-
corporate backlog decreases
2027+
-
next-gen fabs come online
-
global supply significantly expands
-
shortage meaningfully declines
Most analysts project meaningful normalization between 2026–2028.
Not in 2025.
Certainly not in 2024-2025.
9. Will GPU Prices Drop?
They will, but slowly—because:
-
corporations will still pay premiums
-
high margins are now normal
-
AI demand won't collapse
-
gaming cycles continue
-
annual tech refreshes are accelerating
Price collapse only occurs when:
supply > demand
We are far from that.
10. Could Another Shortage Happen Again?
Yes—and easily.
Top risk triggers:
-
conflict in Taiwan
-
AI arms race escalation
-
export bans
-
HBM shortage
-
logistic collapse
-
new mining boom
-
supply chain cyber-attack
Semiconductor fragility remains extremely high.
Conclusion
The global GPU shortage is not a temporary inconvenience—it is the result of a structural imbalance that has reshaped the computing industry.
For the first time in history:
GPUs are more strategically important than CPUs.
Demand from AI, cloud computing, gaming, and industrial simulation has outgrown the world’s manufacturing ability to supply advanced graphics processors. This shortage will likely continue into the second half of the decade, easing only as new fabs, packaging plants, and memory facilities mature and stabilize globally.
Will the shortage end?
Yes.
But not this year.
Not next year.
We are on a multi-year timeline—and the world's AI appetite is still accelerating.
Until production finally outpaces demand, GPUs will remain one of the most precious—and expensive—assets in the technology world.
- Üksikasjad
- Kirjutas: IT Pro
- Kategooria: Blog
- Klikke: 5981
Sissejuhatus
2025. aastal on suur investeeringute kasv tehisintellektipõhiste andmekeskuste infrastruktuuris eksimatu. Ülemaailmne digitaalmajandus, mida võiks nimetada relvarace'iks, on seotud miljardite eurodega, mis on seotud tehnoloogiahiiglaste kapitalikohustustega, et toetada agressiivselt uusi rajatisi. Järgnevalt uurime peamisi jõude, mis sunnivad ettevõtteid lisama miljardeid AI-andmekeskustesse, ülemineku aluseks olevaid arhitektuurilisi ja tegevuslikke muutusi, kuidas ärimudelid kohanevad ning millised on riskid ja tulevased tagajärjed sinusuguste organisatsioonide jaoks (koos sügava huviga infrastruktuuri vastu, võrdlusuuringutega, mahalaadimise arvutamisega jne).

Investeeringu ulatus
Et haarata hoogu, siin on mõned esinduslikud andmepunktid:
-
Microsofti plaanid 80 miljardit USA dollarit Fiscal 2025 ehitada tehisintellektuaalseid andmekeskusi, eriti Ameerika Ühendriikides. Reuterid
-
AI-ga seotud ülemaailmne investeerimisbuum andmekeskustes on hinnanguliselt triljonites: ühes artiklis märgiti, et 3 triljonit dollarit AI-andmete keskuse kulutuste buum on käimas. Valvur
-
2025. aasta andmete keskuse investorite ülevaate kohaselt kasutasid sellised ettevõtted nagu Blackstone, Bain Capital ja teised aktiivselt kapitali suuremahulisteks hüpertasandi ja GPU-rikasteks rajatisteks. STL Partnerid
Need arvud näitavad, et tegemist ei ole täiendava kasvuga, vaid infrastruktuuri strateegilise ja laiaulatusliku muutusega.
Miks nüüd?
1. AI mudeli keerukuse ja nõudluse plahvatus
Suurte keelemudelite, generatiivsete AI-süsteemide, simulatsioonikoormuse ja muude arvutuslike ülesannete tõus on oluliselt muutnud andmekeskuste nõudluse profiili:
-
Väljaõpe ja järelkontroll mastaabis nõuavad massiivne GPU klastrid, suure tihedusega riiulid, arenenud võrgustike ja jahutus.
-
Nagu üks artikkel kirjeldab: Iga ekstra märgi loodud AI algoritmid sõltub sellest kihist. Hangi
-
Ettevõtted lähevad traditsiooniliselt CPU-keskselt töökoormuselt üle GPU/ASIC-kiirendatud töökoormusele, mis tekitab uusi arhitektuurinõudeid (võimsustihedus, jahutus, ühenduvus).
Lühidalt: arvutuslik nõudlus kasvab nii horisontaalselt (rohkem mudeleid/kasutajaid) kui ka vertikaalselt (suuremad mudelid, rohkem parameetreid, rohkem andmeid).
2. Konkurentslik eelis ja esmane investeering
Paljudele suurtele tehnoloogiafirmadele ja pilvandmetöötluse pakkujatele on võidujooks midagi enamat kui lihtsalt kulutõhus andmetöötlus: see seisneb infrastruktuuri vallikraavi ehitamises:
-
Ettevõtted nagu Microsoft, Amazon AWS, Google Cloud ja Meta ei ole rahul sellega, et nad ehitavad oma järgmise põlvkonna vahendeid, et saada kasutus-, latentsus-, kulu- ja kontrollieeliseid. 174 Ülemaailmne võimsus+1
-
Ettevõtjatele (sealhulgas teie enda võrdlusuuringu kontekst, GPU off-koormus, virtualiseerimine jne), kellel on juurdepääs spetsialiseeritud infrastruktuurile, annab eristaja: kiirem mudeli iteratsioon, madalam latentsusjäreldus, suurem läbilaskvus koolitus.
Sellest tulenevalt on ettevõtted valmis nüüd siduma selle tulevikuväärtusega miljardeid.
3. Infrastruktuur kui strateegiline vara
Data-centres ei ole enam lihtsalt staatiline ~ võõrustamine ~vara on strateegiline infrastruktuur tehisintellekti jaoks:
-
Neil on pikaajaline vara (10+ aastat) ning neid koheldakse üha enam kui elutähtsat tööstustaristut (energia, jahutus, kiudained, taastuvenergia).
-
Investorid ja infrastruktuurifondid on liikumas: andmekeskuse tippinvestorite nimekiri hõlmab nüüd infrastruktuuri/reaalvaraga ettevõtteid, kes näevad andmekeskusi kui keskseid kasvuplatvorme. STL Partnerid
-
AI arvutamise olemus tähendab, et oluline ei ole mitte ainult serverid, vaid ka parempoolsed serverid õiges kohas (tõhusa võimsusega, madala latentsusega, suure ribalaiusega).
Seega tähendab õige tehisintellekti-andmekeskus ettevõtete jaoks sageli oma ettevõtte tuleviku ülesehitamist.
4. Energia, asukoht ja tagi ökonoomika
Ulatuslikud tehisintellekti andmekeskused on energiamahukad, soojusemahukad, ruumimahukad ja saavad kasu mastaabisäästust:
-
Üks tehniline dokument näitab, kuidas tehisintellekti andmekeskuste ühisasustamine taastuvenergia tootmise ja arukate energiajuhtimissüsteemidega võib oluliselt vähendada kulusid ja keskkonnamõju. arXiv
-
Teine näitab, kuidas hajutatud, võrguteadlikud andmekeskused võiksid aidata stabiliseerida võrkusid, neelates massiivseid arvutuskoormusi. arXiv
-
Strateegiline asukoht, juurdepääs odavale/taaskasutatavale energiale, soodne võrgupoliitika, maa ja kõik muu on lubatud. Ettevõtted, kes püüavad ehitada tehisintellekti-keskselt, võtavad arvesse mitte ainult kulusid, vaid ka energia + jahutuse + kinnisvara + ühenduvuse kulusid.
5. Suveräänsus, reguleerimine ja geostrateegilised probleemid
Compute küsimusi mitte ainult kaubanduslikult, kuid poliitiliselt:
-
Hiljutises 775 USA-välise andmekeskuse uuringus leiti, et andmekeskuse infrastruktuuri (mis riik, milline ettevõtja) kontrollimine on üha enam digitaalse suveräänsuse hooba. arXiv
-
Mõned riigid püüavad otseselt meelitada tehisintellekti andmekeskusesse investeeringuid, et koguda sisemiselt AI väärtust.
-
Ettevõtted mõtlevad peale latentsus- ja kulude riskidele: regulatiivsele riskile, ekspordikontrollile, tarneahela piirangutele, millest kõik on suunatud infrastruktuuri omamisele või rangele kontrollimisele.
Mida tähendab 'AI-valmis andmekeskus' võtmearhitektuuriline nihe
Intellektuaalomandiga seotud töökoormusega seotud andmekeskuste ehitus erineb oluliselt tavapärasest ettevõtlusest või pilvandmekeskustest. Mõned peamised erinevused:
-
Võimsustihedus: AI riiulid võivad vajada kümneid kilovatte (kW) riiuli kohta, mitte mõnda. Jahutamine ja energia jaotus peavad seda toetama.
-
JahutussüsteemidVedelikjahutus, otse-kiibi-jahutus, kastmisjahutus muutuvad tihenevate GPU-klastrite jaoks üha tavalisemaks.
-
Ühendatavus ja latentsus: Suured GPU klastrid nõuavad sageli väga kiireid ühendusi (NVLink, CXL, PCIe, kiire Ethernet) ja madala kiirusega ühendusi ladustamise, võrgu, servateenustega.
-
Modulaardisain ja kiire kasutuselevõttMõned uuemad operaatorid kavandavad modulaarseid GPU-podge või konteinerandmekeskusi, et nad saaksid kiiresti kasutada suurt võimsust.
-
Energia ja jätkusuutlikkuse infrastruktuur: Kuna võimsus on kallis ja üha enam kontrollitud, on paljud rajatised taastuvenergia ühispaiknemisel, kasutades arukat koormusemuutmist, ehitades odava energiaga saite või pidades läbirääkimisi suuremahuliste energiatehingute üle.
-
Spetsiaalsed riistvara elutsüklid: Erinevalt tüüpilistest serveritest peavad tehisintellekti klastrid jääma GPU/kiirenduse värskendustsüklitesse (nt iga ~18-24 kuu järel), mis tähendab, et infrastruktuur peab toetama uuendusi, jahutust, suure tihedusega võimsust.
-
Asukohastrateegia: Lähedus AI mudeli uurimiskeskustele, andmeallikatele, kasutajate tulemusnäitajatele ja ühenduvusele pilvede/hübriididega.
Sest igaüks oma valdkonnas (AI võrdlusuuring, raske GPU kasutamine, virtualiseerimine, jne.) on: infrastruktuur on nüüd esmane eristaja, mitte ainult kulu.
Mõju ärimudelile
Äri-perspektiivselt langeb AI-andmekeskuse infrastruktuuri suurte investeeringute loogika mitmesse korvi:
• Uute tuluvoogude võimaldamine
Ettevõtted näevad üleminekut tehisintellektile kui uute ärivaldkondade loomist: mudelikoolitus, järelkontroll teenusena, ettevõtte tehisintellektikonsultatsioon, AI-de ekspluatatsioonid. Nende toetamiseks on vaja infrastruktuuri. Ilma selleta riskid sa sõltumisega kolmandatest osapooltest.
• Kulude kontroll ja kasumimarginaali parandamine
Omades või kontrollides infrastruktuuri, mis on optimeeritud AI töökoormuse jaoks, püüavad ettevõtted vähendada tegevuskulusid järelduse või koolitustunni kohta. Ulatuslik majandus võib hüperkalibraatorite jaoks vähendada kulusid piisavalt, et võimaldada uusi atraktiivsete marginaalidega teenuseid.
• Strateegiline eelis ja lukustamine
Infrastruktuuri investeeringud loovad vallikraavi: kui organisatsioon omab või kontrollib märkimisväärset tehisintellekti võimsust, on konkurentidel raskem sobida. Samuti, integratsioon patenteeritud riistvara, tarkvara korstnad, kohandatud jahutus jne, suurendab vahetamise kulud.
• Sisemiste uuenduste toetamine
Teie maailmas GPU-offload, AI võrdlusuuringud, virtualiseerimine, tööriistade arendamine: millel on juurdepääs suurte arvude rajatised võimaldab kiiremat iteratsiooni, suuremad katsed ja sisemine konkurentsieelis. See on tootlikkuse investeering, mitte ainult infrastruktuur.
• Infrastruktuuri kui teenust teistele
Mõned ettevõtted ehitavad tehisintellektuaalseid andmekeskusi oma vajaduste rahuldamiseks ning pakkuda võimsust teistele (nt AI idufirmad, SaaS ettevõtted). Selline kahesuunaline mudel võimaldab ülevõimsuse rahaseerimist.
• Riskimaandamine ja kontroll
Kuna AI muutub ärimudelites keskseks, võib sõltuvus välistest tarnijatest või pilvedest muutuda kitsaskohaks või riskiks (suhtelisus, andmete suveräänsus, kuluinflatsioon). Investeeringud infrastruktuuri on riskimaandus.
Piirkondlik ja tööstusharu dünaamika
-
Investeeringute buum on ülemaailmne: Aasia-Vaikse ookeani piirkond, Euroopa, Lähis-Ida kõik otsivad tehisintellekti ülikoolilinnakuid. Näiteks teatas Prantsusmaa suurtest investeeringutest, et saada võidujooksus tagasi spetsiaalsete AI superarvutite/andmekeskuse ülikoolilinnakutega. Le Monde.fr
-
Arenevad turud võivad muutuda atraktiivseks maa, võimu või regulatiivsete eeliste tõttu (eelkõige energiamahuka infrastruktuuri puhul).
-
Kaasatud on ka väljaspool puhast tehnoloogiat asuvad tööstusharud: finantsteenused, autotööstus, tervishoid ja tootmine investeerivad üha enam tehisintellekti infrastruktuuri ja suurendavad seeläbi nõudlust ®AI andmekeskuste järele.
Peamised probleemid ja riskid
Kuigi põhjendus on tugev, ei ole need investeeringud ilma märkimisväärse riski ja keerukuseta:
-
Kapitali suur osatähtsus: Tegemist on mitme miljardi dollariliste kohustustega, millel on pikk horisont enne tagasimakset.
-
Kiired tehnoloogilised muutused: AI riistvara, jahutus, võrgumaastik areneb kiiresti; investeeringud tänapäeva arhitektuuri võivad mõne aastaga muutuda ebaoptimaalseks (nt GPU uus põlvkond, uus mälu/arhitektuur, optilised ühendused).
-
Energia ja jätkusuutlikkuse surve: AI arvutades kasvab ka energiatarbimine ja CO2-jalajälg. Reguleerivad asutused, kogukonnad ja ettevõtted on jätkusuutlikkuse tagamiseks surve all. Dokumendid näitavad, kuidas taastuvad ja ühendatud andmekeskused saavad aidata, kuid need muudavad ka keerulisemaks. arXiv
-
Võrgu- ja võimsuspiirangudPaljud piirkonnad võitlevad vajaliku võimsuse või usaldusväärse ühenduvuse tagamisega või võivad kokku puutuda lubade/energialepingute hilinemisega.
-
Geopoliitiline/reguleeriv riskInfrastruktuur võib alluda ekspordikontrollile, andmesuveräänsusseadustele, valitsuse sekkumisele. Dokumendid, milles uuritakse mitte-USA andmekeskusi, näitavad, et ettevõtjad, kelle kodakondsus ja kontroll on olulised. arXiv
-
Nõudluse ebakindlusNõudlus tehisintellekti järele kasvab, kuid tuleviku töökoormuse täpne kuju, ajastus ja ärimudel on endiselt ebakindel. Nõudluse erineval muutumisel on oht liigsele tootmisvõimsusele või raisatud kulutamisele.
-
Jahutamine/termiline risk: Kuna hammasrihma tihedus suureneb, muutub jahutuse juhtimine mitte-triviaalseks (rikkumise oht, soojuse vähendamine, kulude suurenemine).
-
Investeeringutasuvuse surve: Investorid (infrastruktuurifondid, REITid jne) hindavad, milline on tehisintellekti-andmekeskuste tulumudel, kui see on lihtsalt hosting.
Mida see tähendab (ja mida peaksite kaaluma)
Arvestades teie huvi GPU võrdlusuuring, AI töövood, virtualiseerimine ja infrastruktuur, siin on mõned mõjuvad tagajärjed ja kaalutlused:
Suurema arvutusliku kasutatavuse kava
-
Kui te töötate välja tehisintellekti võrdlussviite või off-load strateegiaid (GPU/CPU/DirectML/ONNX jne), siis oodake, et suurtel organisatsioonidel on üha enam ettevõttesisene või allhanke korras juurdepääs ~AI-valmis klastritele.
-
Kui te toetute ainult kaubapilvele/virtualiseerumisele, võite leida kulu/tulemuslikkuse alamoptimaalsuse võrreldes organisatsioonidega, kellel on kohandatud AI andmekeskused.
Infrastruktuuristrateegia peaks arenema
-
Mõelge, kus juhtida oma töökoormust: sisemine klastri vs kolmanda osapoole vs hüperscale AI-data-keskus.
-
Hinda, kas teie võrdlus- või varustusvahendid on kohandatud uue GPU klastri paradigmaga (nt lairibaühendus, otsekiibi jahutamine, hammas > 50 kW).
-
Mõelge skaleeritavuse, energiakulu, jahutuse ja energia infrastruktuuri osana oma pinu (mitte ainult arvutada).
Säästvus ja energia peaksid olema osa planeerimisest
-
Kui koormuste arv suureneb, suurenevad ka energia-/jahutuskulud. AI infrastruktuuri ehitamine või kasutamine tõhusates kohtades, kus on juurdepääs taastuvenergiale, võib oluliselt mõjutada TCOd ja sõiduplaani.
-
Kui te võrdlussüsteemid, lisada energia-tokeni või energia-järelduse mõõdikud.
Tootja ja riistvara ökosüsteemid
-
Varustusahela komponent (GPUd, ASICid, ühendused, mälu) on üha enam seotud suuremahuliste andmekeskuste kasutuselevõtuga. See tähendab, et infrastruktuur, mida te võrdlete või arendate, areneb kiiresti ja võib sõltuda partnerlustest või mastaabist.
-
Juurdepääs järgmise põlvkonna tehisintellekti riistvarale (nt andmekeskuse skaala jaoks kavandatud GPUd, kohandatud ASICid, CXL-ühendus, vedeljahutus) võib olla eristustegur.
Riski vähendamise strateegia
-
Sest investeerimistsüklid on suured ja pikad, kaaluda mitmekesistamist (hübriidpilv + on-prem + serv), mitte eeldada, et kõik arvutused lähevad üle ~AI-andmekeskustesse.
-
Jälgida regulatiivseid/suveräänsusriske andmekeskuste asukoha või tegevuse ümber.
-
Olge teadlikud võimalikest liigse tootmisvõimsuse stsenaariumidest, mis võivad vähendada andmekeskuste operaatorite marginaale (mis võivad mõjutada kättesaadavust, hinnakujundust).
Võrdlusuuringute ja töövahendite loomise võimalus
-
Teie huvi AI-Benchmarki sviitide, GPU off-load ja virtualiseerimine võiks ühtida kujuneva suundumusega ~AI-andmekeskuse arhitektuuris. Uute arhitektuuride võrdlemisel on võimalus võrrelda on-prem vs. pilv vs. tehisintellektuaalseid andmekeskusi, modelleerida energia/kulu/läbilaskvuse kompromisse.
-
Mõelge ehitusmoodulitele/vahenditele, mis aitavad ettevõtetel hinnata oma AI-andmekeskuse ehitamisel, on mõttekas võrreldes hüperskaala operaatorite liisinguvõimsusega.
Mida vaadata?
Siin on mõned tulevikku suunatud teemad, mida ettevõtted ja võrdlusalused (nagu teie) peaksid jälgima:
-
Arhitektuursed hüppedJärgmine tehisintellekti riistvara põlvkond (nt tõhusamad GPUd, kohandatud kiirendid, kiibid, mälu disagregatsioon) mõjutab seda, mida ®AI-andmekeskus 2026-27. aastal tähendab.
-
Edge AI andmekeskused: Kuigi palju investeeringuid on hüperscale ülikoolilinnakud, serv-AI (lähedane kasutajatele) võib juhtida mini-andmekeskuste madala suhtega järeldus.
-
Energia ja jahutusega seotud innovatsioon: Sukeljahutus, vedeljahutus, taastuvenergia ühispaiknemine, arukas koormuse planeerimine muutub üha olulisemaks, kuna võimsusest saab piirav tegur.
-
Riikide arvud ja piirkondlikud keskused: Suurem hulk valitsusi võib motiveerida kohalikku tehisintellekti-andmekeskuse arengut suveräänsuse/privaatsuse huvides. See võib avada uusi turge ja regulatiivseid surveid.
-
Ärimudeli areng: AI-mudelid võivad kasvada: ettevõtted, kes ostavad AI-koolituseks/järelduseks kohandatud klastreid, selle asemel et rentida üldist pilvevõimsust.
-
Jätkusuutlikkus ja CO2-jalajälg: Intellektuaalse intellektuaalse intellekti kasvades suureneb avaliku ja regulatiivse kontrolli käigus energia, heitkoguste ja jätkusuutlikkuse üle ~ andmekeskuste käitajad peavad mõõtma ja optimeerima energia-/tulemusnäitajaid.
-
Üleehitamise oht: Nagu iga infrastruktuuribuumi puhul, on ka oht, et paljud riiulid, mis ei ole veel küpsed, on reaalsed. Nõudluse ja võimsuse ajastus on oluline.
Järeldus
2025. aastal tehisintellekti-andmekeskustesse tehtud investeeringute uputus ei ole lihtsalt pilvede kasvu jätkumine, mis on struktuuriline muutus andmetöötluse infrastruktuuri ehitamises, kasutamises ja rahastamises. Ettevõtjate puhul on otsus paigutada miljardeid tehisintellektuaalsesse andmekeskusesse ajendatud:
-
AI töökoormuse ulatus ja kiirus.
-
Strateegiline kohustus omada infrastruktuuri (või saada eelisjuurdepääs), mis annab AI-le õiguse.
-
Mastaabi, energia ja tulemuslikkuse ökonoomika, mis soodustab suuremahulisi erirajatisi.
-
Andmekeskuste arenev mõiste strateegilise ja konkurentsivõimelise varana, mitte lihtsalt serveriettevõtetena.
- Üksikasjad
- Kirjutas: IT Pro
- Kategooria: Blog
- Klikke: 6763
18. novembril 2025 kukkus suur tükk internetti ümber.
Kui avasite ChatGPT, X (Twitter), League of Legends, Shopify, Coinbase või lugematuid väiksemaid saite, siis teid tervitas Cloudflare'i kaubamärgiga 5xx vealehekülg - või saite lihtsalt ei laadinud üldse. See, mis esialgu tundus järjekordse suure "internet on katki"-hetkena, osutus hoopis peenemaks ja mõnes mõttes murettekitavamaks: Cloudflare'i enda infrastruktuuris oli iseenesest põhjustatud viga, mis oli sügaval Cloudflare'i enda infrastruktuuris.
Allpool on üksikasjalik ülevaade sellest, mis juhtus eilse Cloudflare'i katkestuse (18. november 2025) ajal, miks see juhtus, keda see mõjutas ja milliseid õppetunde peaksid infrastruktuurimeeskonnad sellest õppima.

Mis tegelikult eile juhtus?
Teisipäeval, 18. novembril 2025, umbes hilishommikul UTC hakkas Cloudflare tagastama suurel hulgal HTTP 5xx serveri vigu tema võrku läbinud liikluse kohta. Lõppkasutajate jaoks tähendas see "Internal Server Error" või "Gateway Error" lehekülgi, kui nad üritasid paljudele populaarsetele veebisaitidele ja rakendustele ligi pääseda.
Cloudflare'i enda õnnetusjärgse blogi kohaselt oli katkestus:
-
Hakkas klientide HTTP-liiklust mõjutama kell 11:28 UTC.
-
Nägi laialt levinud 5xx vigu põhilistes CDN- ja turvateenustes.
-
Suuremad leevendavad sammud toimusid umbes kell 13:05-14:30 UTC.
-
5xx veamahu taastamine algtasemele kell 17:06 UTC Cloudflare'i blogi
Cloudflare ise kirjeldas seda kui oma halvimat katkestust alates 2019. aastast, sest see ei mõjutanud ainult ühte funktsiooni või armatuurlauda - see häiris põhilist proxy-kihti, mis suunab suurema osa kliendiliiklusest läbi tema võrgu. Cloudflare'i blogi
Kolmandate osapoolte seire toetas seda. Cisco ThousandEyes nägi Cloudflare'i mõjutavat globaalset katkestust, mille käigus esinesid ajakatkestused ja 5xx-vead sellistes teenustes nagu X, OpenAI (ChatGPT) ja Anthropic, samas kui võrguteed ise nägid välja terved. See viitas kindlalt taustateenuse tõrgetele, mitte internetiteenuse pakkuja tasandi või marsruutimise probleemile. ThousandEyes
Keda see mõjutas?
Kuna Cloudflare asub tohutu osa interneti ees (umbes 20% veebi saitidest toetub Cloudflare'ile jõudluse ja turvalisuse tagamiseks), oli löögi raadius tohutu. AP News+1
Teadaolevalt mõjutatud teenuste seas:
-
ChatGPT / OpenAI
-
X (endine Twitter)
-
Canva, Shopify, Dropbox, Coinbase.
-
League of Legends ja muud mänguplatvormid
-
mitmesugused avaliku transpordi ja valitsuse veebisaidid, sealhulgas New Jersey Transit ja Prantsusmaa SNCF-i raudteede digitaalsüsteemid AP News+1
Katkestuste jälgijad, nagu Downdetector, registreerisid tipphetkel tuhandeid samaaegseid probleemiteateid. Reuters teatas, et ühel hetkel oli ainuüksi X-i puhul umbes 5000 mõjutatud kasutajat, enne kui paranduste levikuga nende arv vähenes. Reuters
Kasutaja vaatenurgast ilmnes see järgmiselt:
-
saite ei laadita üldse.
-
sisselogimisvoogude katkemine või ebaõnnestumine (eriti kui tegemist oli Cloudflare Accessi või Turnstile'iga).
-
APId reageerisid aeg-ajalt või 5xx vigadega.
-
Armatuurlaudade ja halduspaneelide aegumine
Teisisõnu: suur osa internetist "tundus alla kukkuvat", kuigi algpõhjus oli koondunud ühe teenusepakkuja sisesüsteemidesse.
Kuidas Cloudflare tavaliselt töötab (lihtsustatult)
Et mõista, miks see katkestus oli nii tõsine, aitab teada, milline on taotluse ligikaudne tee läbi Cloudflare'i võrgu.
Cloudflare toimib pöördproxy CDN-i ja turvakihina:
-
Teie brauser või rakendus võtab ühendust Cloudflare'iga, mitte otse päritolusaidiga.
-
Cloudflare lõpetab TLS-i ja HTTP-i oma servas.
-
Taotlused voolavad Cloudflare'i põhiproxy-süsteemi, mida nimetatakse FL ("Frontline") ja selle uuema põlvkonna FL2.
-
See põhiproxy:
-
Rakendab WAF (veebirakenduste tulemüür) reegleid.
-
Käitab botide haldamise mudeleid.
-
Käsitleb DDoS-kaitset, vahemälu, väljumist päritoluriiki.
-
suunab liiklust teistele sisemistele toodetele nagu Workers, R2, Access jne. Cloudflare'i blogi
-
Tavapärases töös on see arhitektuur väga vastupidav: kui ühes andmekeskuses on probleem, suunatakse liiklus teiste kaudu; konfiguratsioonimuudatused viiakse ettevaatlikult välja; üksikud funktsioonid peaksid tõrgeteta toimima.
Eilne katkestus oli just sellepärast halb, et rike oli ühise proxy-tee enda sees ja see oli tihedalt seotud konfiguratsioonifailiga, mida lükatakse kogu maailmas sageli ja automaatselt.
Põhiline põhjus: botihalduse funktsioonifail, mis läks pahatihti kaduma.
Cloudflare'i ametlik selgitus viitab ühele peamisele süüdlasele:
funktsioonikonfiguratsioonifail, mida kasutab nende Bot Management süsteem. Cloudflare'i blogi
Siin on sündmuste ahel lihtsas keeles:
-
Bot Management kasutab "funktsioonifaili"
-
Cloudflare'i bot-tuvastuse mudel tugineb "funktsioonide" kogumile - signaalidele iga taotluse kohta, mida kasutatakse, et otsustada, kas tegemist on inimese või botiga.
-
Need funktsioonid on koondatud konfiguratsioonifaili, mida uuendatakse iga paari minuti tagant ja võetakse kasutusele ülemaailmselt, nii et Cloudflare saab kiiresti kohaneda uute ründemustritega. Cloudflare'i blogi
-
-
Muudatus ClickHouse päringu käitumises
-
Funktsioonifaili genereeritakse päringutega ClickHouse'i andmebaasi vastu.
-
Cloudflare tegi umbes kell 11:05 UTC muudatuse, et parandada jaotatud päringute turvalisust ja õigusi - võimaldades kasutajatel näha metaandmeid mitte ainult
vaikimisiskeemi, vaid ka aluseks olevater0tabelite kohta. Cloudflare'i blogi -
Päring, mis koostab funktsioonide nimekirja, ei filtreerinud andmebaasi nime järgi; äkki hakkas see saama topelt veerge nii
vaikimisikui kar0-st, mis tegelikult kahekordistas funktsiooniridade arvu.
-
-
Funktsioonifaili suurus kasvas plahvatuslikult
-
Botihalduse moodulil on kõva piir, kui palju funktsioone ta aktsepteerib (seatud 200, mis on tunduvalt suurem kui tavaliselt kasutatav ~60).
-
Kui äsja loodud fail ületas selle piiri, tabas moodul piirmäära ja sattus paanikasse, kuna Rust-koodis oli käitlemata viga, mis kasutas
Result::unwrap()veaväärtuse puhul. Cloudflare'i blogi
-
-
Core proxy teenused hakkasid tagastama 5xx vigu
-
Kuna Bot Management on integreeritud tuumproxy-polgu sisse, ilmnes paanika HTTP 5xx-vastustena igasuguse liikluse puhul, mis sõltus sellest moodulist.
-
Uuel FL2 mootoril nägid kliendid selgesõnalisi 5xx vigu.
-
Vanemal FL-mootoril läksid botide skoorid vaikselt nulli, mis võis põhjustada valepositiivseid tulemusi botide blokeerimise reeglites. Cloudflare'i blogi
-
-
Tõeliselt ebameeldiv osa: fail vahetas pidevalt "hea" ja "halva" vahel.
-
ClickHouse'i klastrit uuendati järk-järgult ja funktsioonifaili uuendati iga viie minuti tagant.
-
Mõnikord jooksis päring uuendatud sõlmedel (tekitades halva faili), mõnikord uuendamata sõlmedel (tekitades hea faili).
-
See tähendas, et mõnda aega kõikus Cloudflare'i võrk normaalse toimimise ja rikke vahel, kuna faili eri versioonid paljunesid. Cloudflare'i blogi
-
See võnkumine muutis olukorra sisemiselt äärmiselt segaseks. Alguses kahtlustasid Cloudflare'i meeskonnad massiivset DDoS-rünnakut, sest veamuster ei näinud välja nagu lihtne tarkvarakrahh. Isegi Cloudflare'i olekuleht, mida hoitakse väljaspool nende enda infrastruktuuri, näitas lühiajaliselt vigu - kokkusattumus, mis õhutas veelgi kahtlusi välise rünnaku kohta. Cloudflare'i blogi+1
Alles siis, kui nad mõistsid, et ühine tegur oli bot'i funktsioonifail, sai pilt selgeks.
Intsidendi ajajoon
Cloudflare'i järeluurimise ja kolmandate osapoolte aruannete põhjal saame kokku panna 18. novembri 2025. aasta ligikaudse ajajoone: Cloudflare'i blogi+2ThousandEyes+2
-
11:05 UTC - ClickHouse'is võetakse kasutusele andmebaasi juurdepääsu kontrollimise muudatus.
-
11:20-11:30 UTC - Bot Management'i funktsioonifaili halvad versioonid hakkavad tekkima ja levima.
-
11:28 UTC - Esimene mõju kliendile: klientide liikluses on täheldatud kõrgendatud HTTP 5xx vigu.
-
11:30-11:32 UTC - Välised seirevahendid ja automaatsed testid hakkavad tuvastama aeg-ajalt esinevaid tõrkeid.
-
11:35 UTC - Cloudflare avab sisemise intsidendikõne; algab uurimine.
-
~11:48 UTC - Cloudflare avaldab seisundi ajakohastamise, mis kinnitab intsidenti. Saadetakse uuesti.
-
11:30-13:05 UTC - Meeskonnad keskenduvad sellele, mis näib olevat töötajate KV käitumise halvenemine, ja uurivad mitmeid võimalikke põhjuseid (sh ründestsenaariumid).
-
13:05 UTC - võtmetegurite leevendamine: Workers KV ja Cloudflare Access on nihutatud tuumproxy'st möödapoole; mõju on vähenenud. Cloudflare'i blogi
-
14:30 UTC - Põhjus on tuvastatud; halbade funktsioonifailide genereerimine ja levitamine on peatatud. Manuaalselt sisestatakse teadaolevalt hea konfiguratsioonifail ja tuumproxy käivitatakse uuesti. Enamus tuumaliiklust taastub normaalseks. Cloudflare'i blogi
-
14:40-15:30 UTC - Armatuurlaua ja sisselogimise probleemid püsivad, kuna Turnstile ja autentimiskatsete mahajäämus tekitavad sekundaarseid koormuspiike. Cloudflare'i blogi
-
17:06 UTC - Veamäärad naasevad põhitasemele; Cloudflare kuulutab süsteemid täielikult normaalseks. Cloudflare'i blogi
Kasutaja seisukohast tundus katkestus kõige hullemana hilishommikust varajase pärastlõunani UTC, kuigi täpsed mõjuaknad varieerusid piirkonniti ja vastavalt sellele, millistest Cloudflare'i toodetest iga teenus sõltus.
Miks see katkestus on nii oluline
Tsentraliseerimisrisk
Cloudflare kuulub koos suurte pilveplatvormide (AWS, Azure, GCP) ja teiste suurte CDNide kõrval väikesesse hulka kesksetest internetitaristu pakkujatest. Kui üks neist osalejatest ebaõnnestub, on mõju lai ja sageli mitte ilmne.
See katkestus:
-
Ei tulnud BGP marsruutimise ebaõnnestumise või ISP kaabli katkemise tõttu.
-
Ei tulnud pahatahtlikust rünnakust (hoolimata esialgsetest kahtlustest).
-
Tuleneb ühest sisekomponendi konfiguratsiooni- ja piiranguvigast.
See on oluline, sest see näitab, kuidas keerulised, tihedalt seotud süsteemid võivad katastroofiliselt ebaõnnestuda isegi ilma välise sekkumiseta. Kui paljud organisatsioonid tuginevad ühele ja samale teenusepakkujale, muutub see teenusepakkuja de facto süsteemselt oluliseks tükiks internetis.
Ka "pehmed" sõltuvused teevad haiget
Mõned mõjutatud teenused ei kasutanud Cloudflare'i lihtsalt rumala CDNina. Nad kasutasid:
-
Kasutasid Cloudflare Accessi autentimiseks ja null usalduse juurdepääsuks.
-
Kasutasid Workers KV osana sisekontrolliplaanidest.
-
tuginesid Turnstile'ile botikindlate sisselogimiste jaoks. Cloudflare'i blogi+1
Kui need tooted ebaõnnestusid, ei läinud katki mitte ainult veebisaidi sisu - katki läksid ka sisselogimised, haldusfunktsioonid ja sisemised APId. See muudab taastamise keerulisemaks: teie olekuleht, intsidendi tööriistad või administraatori kasutajaliides võivad samuti tugineda just sellele teenusepakkujale, mis äsja ebaõnnestus.
Mida Cloudflare ütleb, et see muudab
Cloudflare'i blogis kirjeldatakse mitmeid parandusmeetmeid, mida ettevõte juba võtab, et vähendada millegi sarnase kordumise riski: Cloudflare'i blogi
-
Automaatselt genereeritud konfiguratsioonifailide sissevõtmise karmistamine
Käsitleda sisemiselt genereeritud konfiguratsioone sama skeptiliselt ja valideeritult kui kasutaja poolt esitatud sisendit, sealhulgas range skeemi ja suuruse kontrollimine enne kasutuselevõttu. -
Rohkem globaalseid kill switch'e
Lihtsustage probleemsete sisemiste moodulite (nt Bot Management) kiiret väljalülitamist kogu võrgus, nii et need avanevad, selle asemel, et kogu proxy-tee paanikaks muuta. -
Kaitske süsteemi ressursse veatormide eest
Tagage, et tuumadumpsid, silumisvahendite metaandmed ja jälgitavuse tööriistad ei saa üle koormata protsessorit ja mälu, kui veapöörded algavad. -
Vaadake üle tuumproxy moodulite veamoodused
Kontrollige süstemaatiliselt, kuidas iga sisemoodul käitub ootamatu sisendi või konfiguratsiooni korral, ja tagage globaalse rikke asemel graatsiline lagunemine. -
Täiustage juurutamist ja isoleerimist
Kuigi seda ei ole väga üksikasjalikult välja toodud, viitab juhtum sellele, et Cloudflare jätkab tõenäoliselt uute konfiguratsioonide ja DB käitumise levikut, et vähendada võimalust, et üks halb muudatus mõjutab kogu laevastikku.
Nad nimetasid intsidenti ka nende vastupidavuse ootuste absoluutseks läbikukkumiseks, nimetades seda "vastuvõetamatuks" ja tunnistades selgesõnaliselt valu, mida see põhjustas nii klientidele kui ka tavalistele internetikasutajatele. Cloudflare'i blogi
Õppetunnid infrastruktuuri ja SRE meeskondade jaoks
Isegi kui te ei halda midagi nii suurt kui Cloudflare, on sellest katkestusest mõned väga praktilised õppetunnid disaini ja toimimise kohta:
Käsitlege sisekonfigureid nagu ebausaldusväärset sisendit.
On lihtne eeldada, et "meie enda" loodud konfiguratsioon on alati korrektne. Eilne päev näitab, miks see on ohtlik:
-
Kontrollige alati konfiguratsioonifailide suurust, kuju ja piiranguid enne nende rakendamist.
-
Kaaluge esmalt konfigureerimise rakendamist väikesele alamhulgale liikluse või sõlmede suhtes, kusjuures anomaaliate korral tuleb teha automaatne tagasivõtmine.
-
Hoidke ranged ülemised piirid ja kaitsed funktsioonide arvu, mälu eeljaotuse ja protsessori kasutamise suhtes.
Disainige graatsionaalse osalise rikke jaoks.
Üks viga botihaldusmoodulis ei tohiks kogu proxy-tee paanikat tekitada:
-
Vaikimisi fail-open vs fail-closed mõnes turvakihis, kui alternatiiviks on täielik väljalangemine.
-
Luua selged, testitud kill switchid mittepõhifunktsioonide jaoks.
-
Tagada, et kriitilised allsüsteemid (auth, status page, intsident tooling) saaksid töötada halvenenud režiimis või alternatiivsete marsruutide kaudu.
Jälgige õigeid signaale
Iga viie minuti tagant toimuv võnkumine "hea konfiguratsiooni" ja "halva konfiguratsiooni" vahel muutis signaali ründeliikluseks või mürarikkaks väliskäitumiseks:
-
Veenduge, et teie jälgitavuse torujuhtmes on versiooni- või konfiguratsioonipõhine korrelatsioon.
-
Ehitage armatuurlauad, mis muudavad konfiguratsioonimuutused visuaalselt ilmseks veagraafikute peal.
-
Lisage tugevad sünteetilised testid välisest vaatepunktist, et saaksite kiiresti eristada sisemise rikkeid võrgu-/teekonnaprobleemidest.
Ärge pange kõiki mune ühte infrastruktuurikorvi.
Cloudflare'i kasutavatele organisatsioonidele:
-
Kaaluge mitme CDN-i seadistusi tõeliselt kriitiliste omaduste jaoks.
-
Vältige, et teie olekuleht sõltuks täielikult samast teenusepakkujast kui teie peamine virn (Cloudflare teeb seda, kuid eile oli nende olekulehe hostiga juhuslikult probleeme, mis ajas asjad veelgi segasemaks). Cloudflare'i blogi+1
-
Mõelge kaks korda, enne kui sidute oma autentimise, API juhtimisplaani ja frontend-tarnimise tihedalt sama pakkujaga ilma varuteedeta.
Suurem pilt
Ainuüksi viimaste kuude jooksul oleme näinud suuri katkestusi Microsoft Azure'is, Amazon Web Services'is ja nüüd ka Cloudflare'is, mis kõik on ajutiselt rivistanud suuri tükke tarbijate ja ettevõtete teenuseid. AP News+2TheWashington Post+2
Muster on selge:
-
Internet sõltub üha enam mõnest hiiglaslikust infrastruktuuriteenuse pakkujast.
-
Katkestused on sageli ise põhjustatud, kuna need tulenevad pigem keerulistest sisemistest muudatustest kui välistest rünnakutest.
-
Isegi maailmatasemel SRE-tavadega teenusepakkujad võivad ikka veel sattuda ootamatute koostoimete tõttu konfiguratsiooni, andmebaasi käitumise ja kõvasti kodeeritud piirangute vahel.
Eilne Cloudflare'i intsident on karm meeldetuletus, et "pilv" ei ole võluvägi. Lõppkokkuvõttes on see ikkagi inimeste kirjutatud tarkvara, mille puhul esinevad samad veaklassid kui mis tahes muu rakenduse puhul - lihtsalt sellest sõltub suurusjärgu võrra rohkem inimesi.
Kasutajate jaoks jääb see vahejuhtum enamasti meelde kui "see hommik, kui X ja ChatGPT ei laadinud".
Inseneride jaoks on see tõenäoliselt õpikunäide sellest, kuidas peened konfiguratsioonivigad jaotatud süsteemi tuumikus võivad üleilmseks internetisündmuseks muutuda.


12212
IT Pro 



















