Üksikasjad: Kirjutas: IT Pro; Kategooria: Blog; Avaldatud: 22 November 2025; Klikke: 5997

Sissejuhatus

NVIDIA tegi seda jälle.
Ettevõte hiljuti postitas finantstulemusi, mis mitte ainult ei löönud Wall Streeti ootusi, vaid purustasid need. See on kinnitanud NVIDIA's positsiooni keskse liikumapaneva jõuna jätkuva tehisintellekti revolutsiooni taga.

Tulud tulid dramaatiliselt suurem kui analüütikud ennustasid, mille peamiseks põhjuseks on suurenev nõudlus andmekeskuse GPUs, kiirendades AI investeeringuid, ja rekord ettevõtete kulutused suure jõudlusega arvuti infrastruktuuri.

Aga NVIDIA's ülejõudlus ei ole lihtsalt parem bilanss. See näitab sügavamaid muutusi kogu tehnoloogiamaastikul, alates AI arvutada ökonoomika pilve hinna mudeleid, GPU puudus, ja kuidas ettevõtted ehitada AI-jõuga tooteid tulevikus.

Käesolevas artiklis jaotatakse see, mida NVIDIA's sissetulekute kasv tähendab ja mis tuleb AI turu jaoks.

NVIDIA_Surpasses_Revenue_Expectations_What_It_Means_for_the_AI_Market.png

NVIDIA ületas tuluootusi suure varuga

Viimase mitme kvartali jooksul on NVIDIA näidanud plahvatuslikku kasvu, mis on tingitud peamiselt tehisintellektist ja andmekeskuse nõudlusest.

Põhipunktid:

Andmekeskuse jaotus on nüüd ettevõtte suurim tulumootor;
Täiendõppe ja järeltöökoormus on hüppeliselt suurenenud
Hyperscalerid kulutavad agressiivselt GPU klastritele
Ettevõtete vastuvõtmine on alles algusjärgus
Nõudlus ületab pakkumise ja tahab aastaid

Taust:
NVIDIA's kvartalitulu ületab täna Kogu aasta kokku vaid mõne aasta eest.

See on pooljuhtide tööstuse enneolematu kasv.

Miks analüütikud alahinnanud NVIDIA (uuesti)

Wall Street on korduvalt alahinnanud NVIDIAt kolmel põhjusel:

1. AI turg laieneb prognoositust kiiremini

Nõudlus suureneb veerandi võrra.

2. Pilvekulud on muutunud

Hyperskalers on taastada oma eelarve umbes AI töökoormust.

3. Ettevõtete nõudlus suureneb

Tööstused, kes võtavad tehisintellekti kiiresti vastu:

rahandus
tervishoid
energia
logistika
kaitse
küberturvalisus;

AI ei ole enam eksperimentaalne.
Nüüd on see strateegiline infrastruktuur.

Sealt, kust laekuvad tulud

Andmekeskus GPUs

Need on kroonijuveelid:

A100
H100
H200
GH200
tulemas B100 / B200

Need kiibid töötavad. peaaegu kõik suuremahulised tehisintellektikoolitused kogu maailmas.

Pilveteenuse osutajad

AWS, Microsoft Azure, Google Cloud, Oracle Cloud, Tencent, Alibaba ~ kõik laienevad GPU laevastikud agressiivselt.

Näidisearendajad

OpenAI
Antropilised
Meta-AI
x AI
Mistral
Cohere
Stabiilsus AI
...oskavad GPUsid suurtes kogustes.

Ettevõtte tehisintellekti väljaehitamine

Pangad, haiglad, logistikafirmad ja isegi valitsused ostavad nüüd arvutusklastreid.

See pole enam ainult Silicon Valley hüpe.

Kuidas see muudab võimu tasakaalu AI turul

NVIDIA'de purustamise tulemused kinnitavad uut reaalsust:

AI-arvutus = tuleviku põhiinfrastruktuur

Ettevõtted, kes kontrollivad AI riistvara kontrolli:

AI innovatsiooni tempo
mudelikoolituse ökonoomika;
juurdepääs võimsuse arvutamisele;
Algatamise elujõulisus
konkureeriv kaitse konkurentide vastu

NVIDIA ei müü ainult riistvara.

See kujundab globaalse tehisintellektituru suunda.

Mida see tähendab GPU pakkumise puudujääk

Väike vastus:
Puudumine süveneb, enne kui see leevendab.

Siin on miks:

AI investeeringud kiirenevad
hüperskalaatorid koguvad GPUsid
nõudlus ületab vahvlite võimsust;
Järgmise põlvkonna kiibid vajavad täiustatud pakendit
Kõrgsageduslik (HBM) tarne on endiselt piiratud

Isegi suurenenud tootmise korral kasvab nõudlus kiiremini.

Oodata:

ettevõtete GPUde pikad ooteajad;
hinnalisand pilves
tarbija GPU hinnad jäävad tavalisest kõrgemad

Sel aastal ei toimu tarnetasakaalu.

Võimalik, et mitte järgmisel aastal.

Mõju pilvandmetöötluse turule

NVIDIA's tulu tulemused on tohutu laineline mõju üle pilve hinna ja pilve arvutada.

Pilveteenuse osutajad tõstavad tehisintellekti hinda

Nõudlus lubab seda.

GPU juhtumid jäävad ületellituks

Treeningjärjekorrad kasvavad.

Väiksemaid pilvi võib välja pigistada

NVIDIA pakkumine soosib esmalt hiiglasi.

AI-as-a-Service laieneb

Järelhostimine
koolitusklastrid
mudel APIs
GPU liisinguplatvormid

Cloud AI hinnakujundus sõltub nüüd otseselt NVIDIA's võime toota ja laeva riistvara.

Mõju tehisintellekti idufirmadele

NVIDIA'de plahvatuslik tulu on nii hea kui halb uudis tehisintellekti idufirmadele.

Hea:

Arvutada rohkem kättesaadavust
Rohkem investeeringuid riistvarasse
Pilvemahu suurendamine
Kiirem mudelite täiustamine

Halb:

Suuremad kulud
Pikemad broneeringud ooteajad
Suurem konkurents suurte mängijate poolt
Hinnasurve tehisintellekti tootmistsüklite lõikes

Võidujooks on süvenenud.

Ja sissepääs on tõusnud.

Mõju Big Techile

Ettevõtted nagu Microsoft, Meta ja Google läbivad strateegilise ümberkujundamise:

AI arvutada nüüd käsitletakse:

konkurentsivõimeline vallikraav,
mitmeaastane MIRAPEXi prioriteet;
riiklik eelisressurss;

NVIDIA's tuluhüpe tõestab, et hüperkalkulaatorid investeerivad kiiresti miljardeid.

Oodata:

suuremad GPU klastrid
rohkem piirkondlikke AI superarvutid
Varalisemad mudelid
rohkem tehisintellektiga pilvplatvorme

AI on muutunud strateegilise planeerimise tsükli keskmesse.

Mis tuleb NVRIDIAle järgmiseks?

NVIDIA ei aeglusta.

Tulevased katalüsaatorid on järgmised:

Blackwelli GPU arhitektuur
järgmise põlvkonna tehisintellekti kiirendid
jätkuv CUDA ökosüsteemi lukustamine
IBMi mälu integreerimise edusammud
Ettevõtte AI vastuvõtmine
Eeliseturud
Auto AI arvutada tõusu

Ja kriitiliselt:

NVIDIA muundub kiibitootjalt → täieliku AI platvormi pakkujalt.

Tarkvara + riistvara + ökosüsteem.

Kuidas see kujundab tehisintellekti tulevikku

NVIDIA lööb ootusi ümber tööstuse eeldused:

AI kasv ei aeglustu

See kiirendab.

Arvuta nõudlus on struktuuriline

Mitte tsükliline.

Kulutused jätkavad skaleerimist

Mitte kitsenev.

AI buum on ainult esimeses etapis.

See on kümne aasta pikkuse laienemise algus.

Järeldus

Tuluootusi ületav NVIDIA ei ole pelgalt finantsalane verstapost.

See kinnitab:

AI on tulevase majanduskasvu põhimootor.
andmekeskuse GPUd on maailma kõige väärtuslikum arvutusressurss;
GPU puudujääk jätkub;
pilvede hinnamudelid arenevad;
ja ettevõtte AI vastuvõtmine kiireneb kogu maailmas.

Lühidalt:

NVIDIA ei saa kasu ainult tehisintellektibuumist.

NVIDIA võimaldab seda.

Kuni AI rass jätkub ja ei ole märke aeglustumisest, jääb NVVIDIA maailma strateegiliselt kõige olulisemaks ettevõtteks.

Üksikasjad: Kirjutas: IT Pro; Kategooria: Blog; Avaldatud: 22 November 2025; Klikke: 5199

There is no translation available.

Introduction

Modern computing runs on silicon—and GPUs have become the new gold. Whether for gaming, AI research, VFX, 3D rendering, crypto-mining, or data-center operations, demand for powerful graphics processors has exploded in the past several years. The result has been a prolonged, global GPU shortage that has affected everyone from individual consumers to hyperscale cloud providers.

What began as a supply disruption has evolved into a complex, multi-layered global crisis involving advanced semiconductor manufacturing bottlenecks, geopolitical constraints, massive AI investment, gaming demand, soaring cloud consumption, and technology transitions.

This article breaks down why global GPU scarcity persists, why new chips remain expensive, and—most importantly—when (and if) this shortage will finally end.

1. Why GPUs Are Different From Other Chips

GPUs are not CPUs.

They require:

more transistors per mm²
more advanced lithography (down to 3nm / 5nm)
high-bandwidth memory integration (HBM)
advanced packaging (CoWoS, EMIB, 3D-stacking)
extremely low defect tolerance
specialized fabrication lines
limited global suppliers

This means:

GPU production cannot simply be “scaled up”
new factories cannot be switched on overnight
only a handful of companies can make them at all

95%+ of bleeding-edge GPU production is dependent on TSMC, the Taiwanese semiconductor giant.

That is a single point of global failure.

2. What Triggered the Shortage? (Multiple Waves)

The GPU shortage is not one event—it's an overlapping series of waves:

Wave 1 — Pandemic Supply Disruption (2020-2021)

Factories closed.
Shipping froze.
Demand spiked.

Result: zero inventory at launch for most consumer GPUs.

Wave 2 — Crypto Mining Frenzy

Ethereum mining sent GPU demand through the roof.

Gamers competed with industrial-scale mining farms.

Prices shot up 200%–400%.

Wave 3 — Cloud Computing Explosion

Hyperscalers expanded GPU capacity for AI dramatically:

AWS
Google Cloud
Microsoft Azure
Oracle Cloud
Tencent Cloud
Alibaba Cloud

Every hyperscaler ordered millions of units.

Wave 4 — AI Gold Rush (2023-2025)

The rise of:

ChatGPT
GPT-4 family
Llama models
Stable Diffusion
MidJourney
AI training everywhere

turned GPUs into strategic infrastructure.

Corporations, governments, and defense contractors entered the bidding war.

Wave 5 — Semiconductor Packaging Bottleneck

CoWoS packaging bottleneck delayed shipments by months.

It does not matter if a GPU die is ready—if it cannot be bonded with HBM, it is unusable.

3. Why AI Is the Main Driver Now

This is crucial:

AI is the #1 consumer of high-end GPUs today.

Generative AI requires:

billions-scale training parameters
continuous inference workloads
enormous parallel computation capability
high-bandwidth memory throughput

Training a frontier-tier model can require tens of thousands of H100/H200 class GPUs—and that’s for a single model.

Then, inference (ongoing use) consumes even more hardware over time.

Demand has gone from thousands → hundreds of thousands → millions of units globally.

No manufacturing industry can absorb that shock instantly.

4. NVIDIA Dominance = Market Bottleneck

NVIDIA controls:

80–90% of the global AI GPU market
nearly all hyperscale training hardware
CUDA ecosystem lock-in

GPU quantity is limited.
GPU alternatives are limited.
GPU switching costs are enormous.

Companies have no choice but to wait and pay.

5. Why Consumer & Gaming GPUs Remain Expensive

You would think consumer GPUs would be cheap by now.

However:

1. Manufacturing prioritizes data-center GPUs

(H100, GH200, B200 etc.)

because…
profit margin per chip:
$2000+ → $30,000+

vs
consumer card:
$200 → $1600

Manufacturers prefer the profitable chips.

2. Gaming demand remains high

New AAA titles require more power.

3. Used market is dry

Mining collapse flooded supply once—but that supply is now gone.

4. AI hobbyists are now competing with gamers

More competition → higher pricing.

6. Supply Bottlenecks Explained

The biggest constraints today:

• Lithography

Only TSMC, Samsung, and Intel can build advanced nodes.

• Packaging capacity

CoWoS is limited and complex.

• HBM production

Only a few vendors supply:

SK Hynix
Samsung
Micron

and yield rates are low.

• Inventory depletion

no warehouse stock exists anymore.

• Shipping logistics

hardware travels through dozens of steps:
fab → packaging → memory → board assembly → testing → validation → distribution

7. Geopolitical Risk Amplifies Everything

GPU production depends massively on Taiwan.

Risk factors include:

China–Taiwan tensions
U.S. export controls
sanctions
trade restrictions
chip embargo policies

The U.S. controls access to AI chips for China.
China is now stockpiling aggressively.
This drives additional scarcity.

8. When Will the GPU Shortage Actually End?

Short answer:

Not soon.

Realistic timeline considerations:

2025

supply constraints loosen slightly
new fabs begin limited ramp
more HBM availability
but AI demand increasing faster than supply

2026

additional packaging lines completed
some regions see price stabilization
corporate backlog decreases

2027+

next-gen fabs come online
global supply significantly expands
shortage meaningfully declines

Most analysts project meaningful normalization between 2026–2028.

Not in 2025.

Certainly not in 2024-2025.

9. Will GPU Prices Drop?

They will, but slowly—because:

corporations will still pay premiums
high margins are now normal
AI demand won't collapse
gaming cycles continue
annual tech refreshes are accelerating

Price collapse only occurs when:

supply > demand

We are far from that.

10. Could Another Shortage Happen Again?

Yes—and easily.

Top risk triggers:

conflict in Taiwan
AI arms race escalation
export bans
HBM shortage
logistic collapse
new mining boom
supply chain cyber-attack

Semiconductor fragility remains extremely high.

Conclusion

The global GPU shortage is not a temporary inconvenience—it is the result of a structural imbalance that has reshaped the computing industry.

For the first time in history:

GPUs are more strategically important than CPUs.

Demand from AI, cloud computing, gaming, and industrial simulation has outgrown the world’s manufacturing ability to supply advanced graphics processors. This shortage will likely continue into the second half of the decade, easing only as new fabs, packaging plants, and memory facilities mature and stabilize globally.

Will the shortage end?

Yes.

But not this year.

Not next year.

We are on a multi-year timeline—and the world's AI appetite is still accelerating.

Until production finally outpaces demand, GPUs will remain one of the most precious—and expensive—assets in the technology world.

Üksikasjad: Kirjutas: IT Pro; Kategooria: Blog; Avaldatud: 22 November 2025; Klikke: 5981

Sissejuhatus

2025. aastal on suur investeeringute kasv tehisintellektipõhiste andmekeskuste infrastruktuuris eksimatu. Ülemaailmne digitaalmajandus, mida võiks nimetada relvarace'iks, on seotud miljardite eurodega, mis on seotud tehnoloogiahiiglaste kapitalikohustustega, et toetada agressiivselt uusi rajatisi. Järgnevalt uurime peamisi jõude, mis sunnivad ettevõtteid lisama miljardeid AI-andmekeskustesse, ülemineku aluseks olevaid arhitektuurilisi ja tegevuslikke muutusi, kuidas ärimudelid kohanevad ning millised on riskid ja tulevased tagajärjed sinusuguste organisatsioonide jaoks (koos sügava huviga infrastruktuuri vastu, võrdlusuuringutega, mahalaadimise arvutamisega jne).

Why_Companies_Are_Pouring_Billions_Into_AI_Data_Centers_in_2025.png

Investeeringu ulatus

Et haarata hoogu, siin on mõned esinduslikud andmepunktid:

Microsofti plaanid 80 miljardit USA dollarit Fiscal 2025 ehitada tehisintellektuaalseid andmekeskusi, eriti Ameerika Ühendriikides. Reuterid
AI-ga seotud ülemaailmne investeerimisbuum andmekeskustes on hinnanguliselt triljonites: ühes artiklis märgiti, et 3 triljonit dollarit AI-andmete keskuse kulutuste buum on käimas. Valvur
2025. aasta andmete keskuse investorite ülevaate kohaselt kasutasid sellised ettevõtted nagu Blackstone, Bain Capital ja teised aktiivselt kapitali suuremahulisteks hüpertasandi ja GPU-rikasteks rajatisteks. STL Partnerid

Need arvud näitavad, et tegemist ei ole täiendava kasvuga, vaid infrastruktuuri strateegilise ja laiaulatusliku muutusega.

Miks nüüd?

1. AI mudeli keerukuse ja nõudluse plahvatus

Suurte keelemudelite, generatiivsete AI-süsteemide, simulatsioonikoormuse ja muude arvutuslike ülesannete tõus on oluliselt muutnud andmekeskuste nõudluse profiili:

Väljaõpe ja järelkontroll mastaabis nõuavad massiivne GPU klastrid, suure tihedusega riiulid, arenenud võrgustike ja jahutus.
Nagu üks artikkel kirjeldab: Iga ekstra märgi loodud AI algoritmid sõltub sellest kihist. Hangi
Ettevõtted lähevad traditsiooniliselt CPU-keskselt töökoormuselt üle GPU/ASIC-kiirendatud töökoormusele, mis tekitab uusi arhitektuurinõudeid (võimsustihedus, jahutus, ühenduvus).

Lühidalt: arvutuslik nõudlus kasvab nii horisontaalselt (rohkem mudeleid/kasutajaid) kui ka vertikaalselt (suuremad mudelid, rohkem parameetreid, rohkem andmeid).

2. Konkurentslik eelis ja esmane investeering

Paljudele suurtele tehnoloogiafirmadele ja pilvandmetöötluse pakkujatele on võidujooks midagi enamat kui lihtsalt kulutõhus andmetöötlus: see seisneb infrastruktuuri vallikraavi ehitamises:

Ettevõtted nagu Microsoft, Amazon AWS, Google Cloud ja Meta ei ole rahul sellega, et nad ehitavad oma järgmise põlvkonna vahendeid, et saada kasutus-, latentsus-, kulu- ja kontrollieeliseid. 174 Ülemaailmne võimsus+1
Ettevõtjatele (sealhulgas teie enda võrdlusuuringu kontekst, GPU off-koormus, virtualiseerimine jne), kellel on juurdepääs spetsialiseeritud infrastruktuurile, annab eristaja: kiirem mudeli iteratsioon, madalam latentsusjäreldus, suurem läbilaskvus koolitus.

Sellest tulenevalt on ettevõtted valmis nüüd siduma selle tulevikuväärtusega miljardeid.

3. Infrastruktuur kui strateegiline vara

Data-centres ei ole enam lihtsalt staatiline ~ võõrustamine ~vara on strateegiline infrastruktuur tehisintellekti jaoks:

Neil on pikaajaline vara (10+ aastat) ning neid koheldakse üha enam kui elutähtsat tööstustaristut (energia, jahutus, kiudained, taastuvenergia).
Investorid ja infrastruktuurifondid on liikumas: andmekeskuse tippinvestorite nimekiri hõlmab nüüd infrastruktuuri/reaalvaraga ettevõtteid, kes näevad andmekeskusi kui keskseid kasvuplatvorme. STL Partnerid
AI arvutamise olemus tähendab, et oluline ei ole mitte ainult serverid, vaid ka parempoolsed serverid õiges kohas (tõhusa võimsusega, madala latentsusega, suure ribalaiusega).

Seega tähendab õige tehisintellekti-andmekeskus ettevõtete jaoks sageli oma ettevõtte tuleviku ülesehitamist.

4. Energia, asukoht ja tagi ökonoomika

Ulatuslikud tehisintellekti andmekeskused on energiamahukad, soojusemahukad, ruumimahukad ja saavad kasu mastaabisäästust:

Üks tehniline dokument näitab, kuidas tehisintellekti andmekeskuste ühisasustamine taastuvenergia tootmise ja arukate energiajuhtimissüsteemidega võib oluliselt vähendada kulusid ja keskkonnamõju. arXiv
Teine näitab, kuidas hajutatud, võrguteadlikud andmekeskused võiksid aidata stabiliseerida võrkusid, neelates massiivseid arvutuskoormusi. arXiv
Strateegiline asukoht, juurdepääs odavale/taaskasutatavale energiale, soodne võrgupoliitika, maa ja kõik muu on lubatud. Ettevõtted, kes püüavad ehitada tehisintellekti-keskselt, võtavad arvesse mitte ainult kulusid, vaid ka energia + jahutuse + kinnisvara + ühenduvuse kulusid.

5. Suveräänsus, reguleerimine ja geostrateegilised probleemid

Compute küsimusi mitte ainult kaubanduslikult, kuid poliitiliselt:

Hiljutises 775 USA-välise andmekeskuse uuringus leiti, et andmekeskuse infrastruktuuri (mis riik, milline ettevõtja) kontrollimine on üha enam digitaalse suveräänsuse hooba. arXiv
Mõned riigid püüavad otseselt meelitada tehisintellekti andmekeskusesse investeeringuid, et koguda sisemiselt AI väärtust.
Ettevõtted mõtlevad peale latentsus- ja kulude riskidele: regulatiivsele riskile, ekspordikontrollile, tarneahela piirangutele, millest kõik on suunatud infrastruktuuri omamisele või rangele kontrollimisele.

Mida tähendab 'AI-valmis andmekeskus' võtmearhitektuuriline nihe

Intellektuaalomandiga seotud töökoormusega seotud andmekeskuste ehitus erineb oluliselt tavapärasest ettevõtlusest või pilvandmekeskustest. Mõned peamised erinevused:

Võimsustihedus: AI riiulid võivad vajada kümneid kilovatte (kW) riiuli kohta, mitte mõnda. Jahutamine ja energia jaotus peavad seda toetama.
JahutussüsteemidVedelikjahutus, otse-kiibi-jahutus, kastmisjahutus muutuvad tihenevate GPU-klastrite jaoks üha tavalisemaks.
Ühendatavus ja latentsus: Suured GPU klastrid nõuavad sageli väga kiireid ühendusi (NVLink, CXL, PCIe, kiire Ethernet) ja madala kiirusega ühendusi ladustamise, võrgu, servateenustega.
Modulaardisain ja kiire kasutuselevõttMõned uuemad operaatorid kavandavad modulaarseid GPU-podge või konteinerandmekeskusi, et nad saaksid kiiresti kasutada suurt võimsust.
Energia ja jätkusuutlikkuse infrastruktuur: Kuna võimsus on kallis ja üha enam kontrollitud, on paljud rajatised taastuvenergia ühispaiknemisel, kasutades arukat koormusemuutmist, ehitades odava energiaga saite või pidades läbirääkimisi suuremahuliste energiatehingute üle.
Spetsiaalsed riistvara elutsüklid: Erinevalt tüüpilistest serveritest peavad tehisintellekti klastrid jääma GPU/kiirenduse värskendustsüklitesse (nt iga ~18-24 kuu järel), mis tähendab, et infrastruktuur peab toetama uuendusi, jahutust, suure tihedusega võimsust.
Asukohastrateegia: Lähedus AI mudeli uurimiskeskustele, andmeallikatele, kasutajate tulemusnäitajatele ja ühenduvusele pilvede/hübriididega.

Sest igaüks oma valdkonnas (AI võrdlusuuring, raske GPU kasutamine, virtualiseerimine, jne.) on: infrastruktuur on nüüd esmane eristaja, mitte ainult kulu.

Mõju ärimudelile

Äri-perspektiivselt langeb AI-andmekeskuse infrastruktuuri suurte investeeringute loogika mitmesse korvi:

• Uute tuluvoogude võimaldamine

Ettevõtted näevad üleminekut tehisintellektile kui uute ärivaldkondade loomist: mudelikoolitus, järelkontroll teenusena, ettevõtte tehisintellektikonsultatsioon, AI-de ekspluatatsioonid. Nende toetamiseks on vaja infrastruktuuri. Ilma selleta riskid sa sõltumisega kolmandatest osapooltest.

• Kulude kontroll ja kasumimarginaali parandamine

Omades või kontrollides infrastruktuuri, mis on optimeeritud AI töökoormuse jaoks, püüavad ettevõtted vähendada tegevuskulusid järelduse või koolitustunni kohta. Ulatuslik majandus võib hüperkalibraatorite jaoks vähendada kulusid piisavalt, et võimaldada uusi atraktiivsete marginaalidega teenuseid.

• Strateegiline eelis ja lukustamine

Infrastruktuuri investeeringud loovad vallikraavi: kui organisatsioon omab või kontrollib märkimisväärset tehisintellekti võimsust, on konkurentidel raskem sobida. Samuti, integratsioon patenteeritud riistvara, tarkvara korstnad, kohandatud jahutus jne, suurendab vahetamise kulud.

• Sisemiste uuenduste toetamine

Teie maailmas GPU-offload, AI võrdlusuuringud, virtualiseerimine, tööriistade arendamine: millel on juurdepääs suurte arvude rajatised võimaldab kiiremat iteratsiooni, suuremad katsed ja sisemine konkurentsieelis. See on tootlikkuse investeering, mitte ainult infrastruktuur.

• Infrastruktuuri kui teenust teistele

Mõned ettevõtted ehitavad tehisintellektuaalseid andmekeskusi oma vajaduste rahuldamiseks ning pakkuda võimsust teistele (nt AI idufirmad, SaaS ettevõtted). Selline kahesuunaline mudel võimaldab ülevõimsuse rahaseerimist.

• Riskimaandamine ja kontroll

Kuna AI muutub ärimudelites keskseks, võib sõltuvus välistest tarnijatest või pilvedest muutuda kitsaskohaks või riskiks (suhtelisus, andmete suveräänsus, kuluinflatsioon). Investeeringud infrastruktuuri on riskimaandus.

Piirkondlik ja tööstusharu dünaamika

Investeeringute buum on ülemaailmne: Aasia-Vaikse ookeani piirkond, Euroopa, Lähis-Ida kõik otsivad tehisintellekti ülikoolilinnakuid. Näiteks teatas Prantsusmaa suurtest investeeringutest, et saada võidujooksus tagasi spetsiaalsete AI superarvutite/andmekeskuse ülikoolilinnakutega. Le Monde.fr
Arenevad turud võivad muutuda atraktiivseks maa, võimu või regulatiivsete eeliste tõttu (eelkõige energiamahuka infrastruktuuri puhul).
Kaasatud on ka väljaspool puhast tehnoloogiat asuvad tööstusharud: finantsteenused, autotööstus, tervishoid ja tootmine investeerivad üha enam tehisintellekti infrastruktuuri ja suurendavad seeläbi nõudlust ®AI andmekeskuste järele.

Peamised probleemid ja riskid

Kuigi põhjendus on tugev, ei ole need investeeringud ilma märkimisväärse riski ja keerukuseta:

Kapitali suur osatähtsus: Tegemist on mitme miljardi dollariliste kohustustega, millel on pikk horisont enne tagasimakset.
Kiired tehnoloogilised muutused: AI riistvara, jahutus, võrgumaastik areneb kiiresti; investeeringud tänapäeva arhitektuuri võivad mõne aastaga muutuda ebaoptimaalseks (nt GPU uus põlvkond, uus mälu/arhitektuur, optilised ühendused).
Energia ja jätkusuutlikkuse surve: AI arvutades kasvab ka energiatarbimine ja CO2-jalajälg. Reguleerivad asutused, kogukonnad ja ettevõtted on jätkusuutlikkuse tagamiseks surve all. Dokumendid näitavad, kuidas taastuvad ja ühendatud andmekeskused saavad aidata, kuid need muudavad ka keerulisemaks. arXiv
Võrgu- ja võimsuspiirangudPaljud piirkonnad võitlevad vajaliku võimsuse või usaldusväärse ühenduvuse tagamisega või võivad kokku puutuda lubade/energialepingute hilinemisega.
Geopoliitiline/reguleeriv riskInfrastruktuur võib alluda ekspordikontrollile, andmesuveräänsusseadustele, valitsuse sekkumisele. Dokumendid, milles uuritakse mitte-USA andmekeskusi, näitavad, et ettevõtjad, kelle kodakondsus ja kontroll on olulised. arXiv
Nõudluse ebakindlusNõudlus tehisintellekti järele kasvab, kuid tuleviku töökoormuse täpne kuju, ajastus ja ärimudel on endiselt ebakindel. Nõudluse erineval muutumisel on oht liigsele tootmisvõimsusele või raisatud kulutamisele.
Jahutamine/termiline risk: Kuna hammasrihma tihedus suureneb, muutub jahutuse juhtimine mitte-triviaalseks (rikkumise oht, soojuse vähendamine, kulude suurenemine).
Investeeringutasuvuse surve: Investorid (infrastruktuurifondid, REITid jne) hindavad, milline on tehisintellekti-andmekeskuste tulumudel, kui see on lihtsalt hosting.

Mida see tähendab (ja mida peaksite kaaluma)

Arvestades teie huvi GPU võrdlusuuring, AI töövood, virtualiseerimine ja infrastruktuur, siin on mõned mõjuvad tagajärjed ja kaalutlused:

Suurema arvutusliku kasutatavuse kava

Kui te töötate välja tehisintellekti võrdlussviite või off-load strateegiaid (GPU/CPU/DirectML/ONNX jne), siis oodake, et suurtel organisatsioonidel on üha enam ettevõttesisene või allhanke korras juurdepääs ~AI-valmis klastritele.
Kui te toetute ainult kaubapilvele/virtualiseerumisele, võite leida kulu/tulemuslikkuse alamoptimaalsuse võrreldes organisatsioonidega, kellel on kohandatud AI andmekeskused.

Infrastruktuuristrateegia peaks arenema

Mõelge, kus juhtida oma töökoormust: sisemine klastri vs kolmanda osapoole vs hüperscale AI-data-keskus.
Hinda, kas teie võrdlus- või varustusvahendid on kohandatud uue GPU klastri paradigmaga (nt lairibaühendus, otsekiibi jahutamine, hammas > 50 kW).
Mõelge skaleeritavuse, energiakulu, jahutuse ja energia infrastruktuuri osana oma pinu (mitte ainult arvutada).

Säästvus ja energia peaksid olema osa planeerimisest

Kui koormuste arv suureneb, suurenevad ka energia-/jahutuskulud. AI infrastruktuuri ehitamine või kasutamine tõhusates kohtades, kus on juurdepääs taastuvenergiale, võib oluliselt mõjutada TCOd ja sõiduplaani.
Kui te võrdlussüsteemid, lisada energia-tokeni või energia-järelduse mõõdikud.

Tootja ja riistvara ökosüsteemid

Varustusahela komponent (GPUd, ASICid, ühendused, mälu) on üha enam seotud suuremahuliste andmekeskuste kasutuselevõtuga. See tähendab, et infrastruktuur, mida te võrdlete või arendate, areneb kiiresti ja võib sõltuda partnerlustest või mastaabist.
Juurdepääs järgmise põlvkonna tehisintellekti riistvarale (nt andmekeskuse skaala jaoks kavandatud GPUd, kohandatud ASICid, CXL-ühendus, vedeljahutus) võib olla eristustegur.

Riski vähendamise strateegia

Sest investeerimistsüklid on suured ja pikad, kaaluda mitmekesistamist (hübriidpilv + on-prem + serv), mitte eeldada, et kõik arvutused lähevad üle ~AI-andmekeskustesse.
Jälgida regulatiivseid/suveräänsusriske andmekeskuste asukoha või tegevuse ümber.
Olge teadlikud võimalikest liigse tootmisvõimsuse stsenaariumidest, mis võivad vähendada andmekeskuste operaatorite marginaale (mis võivad mõjutada kättesaadavust, hinnakujundust).

Võrdlusuuringute ja töövahendite loomise võimalus

Teie huvi AI-Benchmarki sviitide, GPU off-load ja virtualiseerimine võiks ühtida kujuneva suundumusega ~AI-andmekeskuse arhitektuuris. Uute arhitektuuride võrdlemisel on võimalus võrrelda on-prem vs. pilv vs. tehisintellektuaalseid andmekeskusi, modelleerida energia/kulu/läbilaskvuse kompromisse.
Mõelge ehitusmoodulitele/vahenditele, mis aitavad ettevõtetel hinnata oma AI-andmekeskuse ehitamisel, on mõttekas võrreldes hüperskaala operaatorite liisinguvõimsusega.

Mida vaadata?

Siin on mõned tulevikku suunatud teemad, mida ettevõtted ja võrdlusalused (nagu teie) peaksid jälgima:

Arhitektuursed hüppedJärgmine tehisintellekti riistvara põlvkond (nt tõhusamad GPUd, kohandatud kiirendid, kiibid, mälu disagregatsioon) mõjutab seda, mida ®AI-andmekeskus 2026-27. aastal tähendab.
Edge AI andmekeskused: Kuigi palju investeeringuid on hüperscale ülikoolilinnakud, serv-AI (lähedane kasutajatele) võib juhtida mini-andmekeskuste madala suhtega järeldus.
Energia ja jahutusega seotud innovatsioon: Sukeljahutus, vedeljahutus, taastuvenergia ühispaiknemine, arukas koormuse planeerimine muutub üha olulisemaks, kuna võimsusest saab piirav tegur.
Riikide arvud ja piirkondlikud keskused: Suurem hulk valitsusi võib motiveerida kohalikku tehisintellekti-andmekeskuse arengut suveräänsuse/privaatsuse huvides. See võib avada uusi turge ja regulatiivseid surveid.
Ärimudeli areng: AI-mudelid võivad kasvada: ettevõtted, kes ostavad AI-koolituseks/järelduseks kohandatud klastreid, selle asemel et rentida üldist pilvevõimsust.
Jätkusuutlikkus ja CO2-jalajälg: Intellektuaalse intellektuaalse intellekti kasvades suureneb avaliku ja regulatiivse kontrolli käigus energia, heitkoguste ja jätkusuutlikkuse üle ~ andmekeskuste käitajad peavad mõõtma ja optimeerima energia-/tulemusnäitajaid.
Üleehitamise oht: Nagu iga infrastruktuuribuumi puhul, on ka oht, et paljud riiulid, mis ei ole veel küpsed, on reaalsed. Nõudluse ja võimsuse ajastus on oluline.

Järeldus

2025. aastal tehisintellekti-andmekeskustesse tehtud investeeringute uputus ei ole lihtsalt pilvede kasvu jätkumine, mis on struktuuriline muutus andmetöötluse infrastruktuuri ehitamises, kasutamises ja rahastamises. Ettevõtjate puhul on otsus paigutada miljardeid tehisintellektuaalsesse andmekeskusesse ajendatud:

AI töökoormuse ulatus ja kiirus.
Strateegiline kohustus omada infrastruktuuri (või saada eelisjuurdepääs), mis annab AI-le õiguse.
Mastaabi, energia ja tulemuslikkuse ökonoomika, mis soodustab suuremahulisi erirajatisi.
Andmekeskuste arenev mõiste strateegilise ja konkurentsivõimelise varana, mitte lihtsalt serveriettevõtetena.

Üksikasjad: Kirjutas: IT Pro; Kategooria: Blog; Avaldatud: 19 November 2025; Klikke: 6763

18. novembril 2025 kukkus suur tükk internetti ümber.
Kui avasite ChatGPT, X (Twitter), League of Legends, Shopify, Coinbase või lugematuid väiksemaid saite, siis teid tervitas Cloudflare'i kaubamärgiga 5xx vealehekülg - või saite lihtsalt ei laadinud üldse. See, mis esialgu tundus järjekordse suure "internet on katki"-hetkena, osutus hoopis peenemaks ja mõnes mõttes murettekitavamaks: Cloudflare'i enda infrastruktuuris oli iseenesest põhjustatud viga, mis oli sügaval Cloudflare'i enda infrastruktuuris.

Allpool on üksikasjalik ülevaade sellest, mis juhtus eilse Cloudflare'i katkestuse (18. november 2025) ajal, miks see juhtus, keda see mõjutas ja milliseid õppetunde peaksid infrastruktuurimeeskonnad sellest õppima.

Mis tegelikult eile juhtus?

Teisipäeval, 18. novembril 2025, umbes hilishommikul UTC hakkas Cloudflare tagastama suurel hulgal HTTP 5xx serveri vigu tema võrku läbinud liikluse kohta. Lõppkasutajate jaoks tähendas see "Internal Server Error" või "Gateway Error" lehekülgi, kui nad üritasid paljudele populaarsetele veebisaitidele ja rakendustele ligi pääseda.

Cloudflare'i enda õnnetusjärgse blogi kohaselt oli katkestus:

Hakkas klientide HTTP-liiklust mõjutama kell 11:28 UTC.
Nägi laialt levinud 5xx vigu põhilistes CDN- ja turvateenustes.
Suuremad leevendavad sammud toimusid umbes kell 13:05-14:30 UTC.
5xx veamahu taastamine algtasemele kell 17:06 UTC Cloudflare'i blogi

Cloudflare ise kirjeldas seda kui oma halvimat katkestust alates 2019. aastast, sest see ei mõjutanud ainult ühte funktsiooni või armatuurlauda - see häiris põhilist proxy-kihti, mis suunab suurema osa kliendiliiklusest läbi tema võrgu. Cloudflare'i blogi

Kolmandate osapoolte seire toetas seda. Cisco ThousandEyes nägi Cloudflare'i mõjutavat globaalset katkestust, mille käigus esinesid ajakatkestused ja 5xx-vead sellistes teenustes nagu X, OpenAI (ChatGPT) ja Anthropic, samas kui võrguteed ise nägid välja terved. See viitas kindlalt taustateenuse tõrgetele, mitte internetiteenuse pakkuja tasandi või marsruutimise probleemile. ThousandEyes

Keda see mõjutas?

Kuna Cloudflare asub tohutu osa interneti ees (umbes 20% veebi saitidest toetub Cloudflare'ile jõudluse ja turvalisuse tagamiseks), oli löögi raadius tohutu. AP News+1

Teadaolevalt mõjutatud teenuste seas:

ChatGPT / OpenAI
X (endine Twitter)
Canva, Shopify, Dropbox, Coinbase.
League of Legends ja muud mänguplatvormid
mitmesugused avaliku transpordi ja valitsuse veebisaidid, sealhulgas New Jersey Transit ja Prantsusmaa SNCF-i raudteede digitaalsüsteemid AP News+1

Katkestuste jälgijad, nagu Downdetector, registreerisid tipphetkel tuhandeid samaaegseid probleemiteateid. Reuters teatas, et ühel hetkel oli ainuüksi X-i puhul umbes 5000 mõjutatud kasutajat, enne kui paranduste levikuga nende arv vähenes. Reuters

Kasutaja vaatenurgast ilmnes see järgmiselt:

saite ei laadita üldse.
sisselogimisvoogude katkemine või ebaõnnestumine (eriti kui tegemist oli Cloudflare Accessi või Turnstile'iga).
APId reageerisid aeg-ajalt või 5xx vigadega.
Armatuurlaudade ja halduspaneelide aegumine

Teisisõnu: suur osa internetist "tundus alla kukkuvat", kuigi algpõhjus oli koondunud ühe teenusepakkuja sisesüsteemidesse.

Kuidas Cloudflare tavaliselt töötab (lihtsustatult)

Et mõista, miks see katkestus oli nii tõsine, aitab teada, milline on taotluse ligikaudne tee läbi Cloudflare'i võrgu.

Cloudflare toimib pöördproxy CDN-i ja turvakihina:

Teie brauser või rakendus võtab ühendust Cloudflare'iga, mitte otse päritolusaidiga.
Cloudflare lõpetab TLS-i ja HTTP-i oma servas.
Taotlused voolavad Cloudflare'i põhiproxy-süsteemi, mida nimetatakse FL ("Frontline") ja selle uuema põlvkonna FL2.
See põhiproxy:
- Rakendab WAF (veebirakenduste tulemüür) reegleid.
- Käitab botide haldamise mudeleid.
- Käsitleb DDoS-kaitset, vahemälu, väljumist päritoluriiki.
- suunab liiklust teistele sisemistele toodetele nagu Workers, R2, Access jne. Cloudflare'i blogi

Tavapärases töös on see arhitektuur väga vastupidav: kui ühes andmekeskuses on probleem, suunatakse liiklus teiste kaudu; konfiguratsioonimuudatused viiakse ettevaatlikult välja; üksikud funktsioonid peaksid tõrgeteta toimima.

Eilne katkestus oli just sellepärast halb, et rike oli ühise proxy-tee enda sees ja see oli tihedalt seotud konfiguratsioonifailiga, mida lükatakse kogu maailmas sageli ja automaatselt.

Põhiline põhjus: botihalduse funktsioonifail, mis läks pahatihti kaduma.

Cloudflare'i ametlik selgitus viitab ühele peamisele süüdlasele:
funktsioonikonfiguratsioonifail, mida kasutab nende Bot Management süsteem. Cloudflare'i blogi

Siin on sündmuste ahel lihtsas keeles:

Bot Management kasutab "funktsioonifaili"
- Cloudflare'i bot-tuvastuse mudel tugineb "funktsioonide" kogumile - signaalidele iga taotluse kohta, mida kasutatakse, et otsustada, kas tegemist on inimese või botiga.
- Need funktsioonid on koondatud konfiguratsioonifaili, mida uuendatakse iga paari minuti tagant ja võetakse kasutusele ülemaailmselt, nii et Cloudflare saab kiiresti kohaneda uute ründemustritega. Cloudflare'i blogi
Muudatus ClickHouse päringu käitumises
- Funktsioonifaili genereeritakse päringutega ClickHouse'i andmebaasi vastu.
- Cloudflare tegi umbes kell 11:05 UTC muudatuse, et parandada jaotatud päringute turvalisust ja õigusi - võimaldades kasutajatel näha metaandmeid mitte ainult vaikimisi skeemi, vaid ka aluseks olevate r0 tabelite kohta. Cloudflare'i blogi
- Päring, mis koostab funktsioonide nimekirja, ei filtreerinud andmebaasi nime järgi; äkki hakkas see saama topelt veerge nii vaikimisi kui ka r0-st, mis tegelikult kahekordistas funktsiooniridade arvu.
Funktsioonifaili suurus kasvas plahvatuslikult
- Botihalduse moodulil on kõva piir, kui palju funktsioone ta aktsepteerib (seatud 200, mis on tunduvalt suurem kui tavaliselt kasutatav ~60).
- Kui äsja loodud fail ületas selle piiri, tabas moodul piirmäära ja sattus paanikasse, kuna Rust-koodis oli käitlemata viga, mis kasutas Result::unwrap() veaväärtuse puhul. Cloudflare'i blogi
Core proxy teenused hakkasid tagastama 5xx vigu
- Kuna Bot Management on integreeritud tuumproxy-polgu sisse, ilmnes paanika HTTP 5xx-vastustena igasuguse liikluse puhul, mis sõltus sellest moodulist.
- Uuel FL2 mootoril nägid kliendid selgesõnalisi 5xx vigu.
- Vanemal FL-mootoril läksid botide skoorid vaikselt nulli, mis võis põhjustada valepositiivseid tulemusi botide blokeerimise reeglites. Cloudflare'i blogi
Tõeliselt ebameeldiv osa: fail vahetas pidevalt "hea" ja "halva" vahel.
- ClickHouse'i klastrit uuendati järk-järgult ja funktsioonifaili uuendati iga viie minuti tagant.
- Mõnikord jooksis päring uuendatud sõlmedel (tekitades halva faili), mõnikord uuendamata sõlmedel (tekitades hea faili).
- See tähendas, et mõnda aega kõikus Cloudflare'i võrk normaalse toimimise ja rikke vahel, kuna faili eri versioonid paljunesid. Cloudflare'i blogi

See võnkumine muutis olukorra sisemiselt äärmiselt segaseks. Alguses kahtlustasid Cloudflare'i meeskonnad massiivset DDoS-rünnakut, sest veamuster ei näinud välja nagu lihtne tarkvarakrahh. Isegi Cloudflare'i olekuleht, mida hoitakse väljaspool nende enda infrastruktuuri, näitas lühiajaliselt vigu - kokkusattumus, mis õhutas veelgi kahtlusi välise rünnaku kohta. Cloudflare'i blogi+1

Alles siis, kui nad mõistsid, et ühine tegur oli bot'i funktsioonifail, sai pilt selgeks.

Intsidendi ajajoon

Cloudflare'i järeluurimise ja kolmandate osapoolte aruannete põhjal saame kokku panna 18. novembri 2025. aasta ligikaudse ajajoone: Cloudflare'i blogi+2ThousandEyes+2

11:05 UTC - ClickHouse'is võetakse kasutusele andmebaasi juurdepääsu kontrollimise muudatus.
11:20-11:30 UTC - Bot Management'i funktsioonifaili halvad versioonid hakkavad tekkima ja levima.
11:28 UTC - Esimene mõju kliendile: klientide liikluses on täheldatud kõrgendatud HTTP 5xx vigu.
11:30-11:32 UTC - Välised seirevahendid ja automaatsed testid hakkavad tuvastama aeg-ajalt esinevaid tõrkeid.
11:35 UTC - Cloudflare avab sisemise intsidendikõne; algab uurimine.
~11:48 UTC - Cloudflare avaldab seisundi ajakohastamise, mis kinnitab intsidenti. Saadetakse uuesti.
11:30-13:05 UTC - Meeskonnad keskenduvad sellele, mis näib olevat töötajate KV käitumise halvenemine, ja uurivad mitmeid võimalikke põhjuseid (sh ründestsenaariumid).
13:05 UTC - võtmetegurite leevendamine: Workers KV ja Cloudflare Access on nihutatud tuumproxy'st möödapoole; mõju on vähenenud. Cloudflare'i blogi
14:30 UTC - Põhjus on tuvastatud; halbade funktsioonifailide genereerimine ja levitamine on peatatud. Manuaalselt sisestatakse teadaolevalt hea konfiguratsioonifail ja tuumproxy käivitatakse uuesti. Enamus tuumaliiklust taastub normaalseks. Cloudflare'i blogi
14:40-15:30 UTC - Armatuurlaua ja sisselogimise probleemid püsivad, kuna Turnstile ja autentimiskatsete mahajäämus tekitavad sekundaarseid koormuspiike. Cloudflare'i blogi
17:06 UTC - Veamäärad naasevad põhitasemele; Cloudflare kuulutab süsteemid täielikult normaalseks. Cloudflare'i blogi

Kasutaja seisukohast tundus katkestus kõige hullemana hilishommikust varajase pärastlõunani UTC, kuigi täpsed mõjuaknad varieerusid piirkonniti ja vastavalt sellele, millistest Cloudflare'i toodetest iga teenus sõltus.

Miks see katkestus on nii oluline

Tsentraliseerimisrisk

Cloudflare kuulub koos suurte pilveplatvormide (AWS, Azure, GCP) ja teiste suurte CDNide kõrval väikesesse hulka kesksetest internetitaristu pakkujatest. Kui üks neist osalejatest ebaõnnestub, on mõju lai ja sageli mitte ilmne.

See katkestus:

Ei tulnud BGP marsruutimise ebaõnnestumise või ISP kaabli katkemise tõttu.
Ei tulnud pahatahtlikust rünnakust (hoolimata esialgsetest kahtlustest).
Tuleneb ühest sisekomponendi konfiguratsiooni- ja piiranguvigast.

See on oluline, sest see näitab, kuidas keerulised, tihedalt seotud süsteemid võivad katastroofiliselt ebaõnnestuda isegi ilma välise sekkumiseta. Kui paljud organisatsioonid tuginevad ühele ja samale teenusepakkujale, muutub see teenusepakkuja de facto süsteemselt oluliseks tükiks internetis.

Ka "pehmed" sõltuvused teevad haiget

Mõned mõjutatud teenused ei kasutanud Cloudflare'i lihtsalt rumala CDNina. Nad kasutasid:

Kasutasid Cloudflare Accessi autentimiseks ja null usalduse juurdepääsuks.
Kasutasid Workers KV osana sisekontrolliplaanidest.
tuginesid Turnstile'ile botikindlate sisselogimiste jaoks. Cloudflare'i blogi+1

Kui need tooted ebaõnnestusid, ei läinud katki mitte ainult veebisaidi sisu - katki läksid ka sisselogimised, haldusfunktsioonid ja sisemised APId. See muudab taastamise keerulisemaks: teie olekuleht, intsidendi tööriistad või administraatori kasutajaliides võivad samuti tugineda just sellele teenusepakkujale, mis äsja ebaõnnestus.

Mida Cloudflare ütleb, et see muudab

Cloudflare'i blogis kirjeldatakse mitmeid parandusmeetmeid, mida ettevõte juba võtab, et vähendada millegi sarnase kordumise riski: Cloudflare'i blogi

Automaatselt genereeritud konfiguratsioonifailide sissevõtmise karmistamine
Käsitleda sisemiselt genereeritud konfiguratsioone sama skeptiliselt ja valideeritult kui kasutaja poolt esitatud sisendit, sealhulgas range skeemi ja suuruse kontrollimine enne kasutuselevõttu.
Rohkem globaalseid kill switch'e
Lihtsustage probleemsete sisemiste moodulite (nt Bot Management) kiiret väljalülitamist kogu võrgus, nii et need avanevad, selle asemel, et kogu proxy-tee paanikaks muuta.
Kaitske süsteemi ressursse veatormide eest
Tagage, et tuumadumpsid, silumisvahendite metaandmed ja jälgitavuse tööriistad ei saa üle koormata protsessorit ja mälu, kui veapöörded algavad.
Vaadake üle tuumproxy moodulite veamoodused
Kontrollige süstemaatiliselt, kuidas iga sisemoodul käitub ootamatu sisendi või konfiguratsiooni korral, ja tagage globaalse rikke asemel graatsiline lagunemine.
Täiustage juurutamist ja isoleerimist
Kuigi seda ei ole väga üksikasjalikult välja toodud, viitab juhtum sellele, et Cloudflare jätkab tõenäoliselt uute konfiguratsioonide ja DB käitumise levikut, et vähendada võimalust, et üks halb muudatus mõjutab kogu laevastikku.

Nad nimetasid intsidenti ka nende vastupidavuse ootuste absoluutseks läbikukkumiseks, nimetades seda "vastuvõetamatuks" ja tunnistades selgesõnaliselt valu, mida see põhjustas nii klientidele kui ka tavalistele internetikasutajatele. Cloudflare'i blogi

Õppetunnid infrastruktuuri ja SRE meeskondade jaoks

Isegi kui te ei halda midagi nii suurt kui Cloudflare, on sellest katkestusest mõned väga praktilised õppetunnid disaini ja toimimise kohta:

Käsitlege sisekonfigureid nagu ebausaldusväärset sisendit.

On lihtne eeldada, et "meie enda" loodud konfiguratsioon on alati korrektne. Eilne päev näitab, miks see on ohtlik:

Kontrollige alati konfiguratsioonifailide suurust, kuju ja piiranguid enne nende rakendamist.
Kaaluge esmalt konfigureerimise rakendamist väikesele alamhulgale liikluse või sõlmede suhtes, kusjuures anomaaliate korral tuleb teha automaatne tagasivõtmine.
Hoidke ranged ülemised piirid ja kaitsed funktsioonide arvu, mälu eeljaotuse ja protsessori kasutamise suhtes.

Disainige graatsionaalse osalise rikke jaoks.

Üks viga botihaldusmoodulis ei tohiks kogu proxy-tee paanikat tekitada:

Vaikimisi fail-open vs fail-closed mõnes turvakihis, kui alternatiiviks on täielik väljalangemine.
Luua selged, testitud kill switchid mittepõhifunktsioonide jaoks.
Tagada, et kriitilised allsüsteemid (auth, status page, intsident tooling) saaksid töötada halvenenud režiimis või alternatiivsete marsruutide kaudu.

Jälgige õigeid signaale

Iga viie minuti tagant toimuv võnkumine "hea konfiguratsiooni" ja "halva konfiguratsiooni" vahel muutis signaali ründeliikluseks või mürarikkaks väliskäitumiseks:

Veenduge, et teie jälgitavuse torujuhtmes on versiooni- või konfiguratsioonipõhine korrelatsioon.
Ehitage armatuurlauad, mis muudavad konfiguratsioonimuutused visuaalselt ilmseks veagraafikute peal.
Lisage tugevad sünteetilised testid välisest vaatepunktist, et saaksite kiiresti eristada sisemise rikkeid võrgu-/teekonnaprobleemidest.

Ärge pange kõiki mune ühte infrastruktuurikorvi.

Cloudflare'i kasutavatele organisatsioonidele:

Kaaluge mitme CDN-i seadistusi tõeliselt kriitiliste omaduste jaoks.
Vältige, et teie olekuleht sõltuks täielikult samast teenusepakkujast kui teie peamine virn (Cloudflare teeb seda, kuid eile oli nende olekulehe hostiga juhuslikult probleeme, mis ajas asjad veelgi segasemaks). Cloudflare'i blogi+1
Mõelge kaks korda, enne kui sidute oma autentimise, API juhtimisplaani ja frontend-tarnimise tihedalt sama pakkujaga ilma varuteedeta.

Suurem pilt

Ainuüksi viimaste kuude jooksul oleme näinud suuri katkestusi Microsoft Azure'is, Amazon Web Services'is ja nüüd ka Cloudflare'is, mis kõik on ajutiselt rivistanud suuri tükke tarbijate ja ettevõtete teenuseid. AP News+2TheWashington Post+2

Muster on selge:

Internet sõltub üha enam mõnest hiiglaslikust infrastruktuuriteenuse pakkujast.
Katkestused on sageli ise põhjustatud, kuna need tulenevad pigem keerulistest sisemistest muudatustest kui välistest rünnakutest.
Isegi maailmatasemel SRE-tavadega teenusepakkujad võivad ikka veel sattuda ootamatute koostoimete tõttu konfiguratsiooni, andmebaasi käitumise ja kõvasti kodeeritud piirangute vahel.

Eilne Cloudflare'i intsident on karm meeldetuletus, et "pilv" ei ole võluvägi. Lõppkokkuvõttes on see ikkagi inimeste kirjutatud tarkvara, mille puhul esinevad samad veaklassid kui mis tahes muu rakenduse puhul - lihtsalt sellest sõltub suurusjärgu võrra rohkem inimesi.

Kasutajate jaoks jääb see vahejuhtum enamasti meelde kui "see hommik, kui X ja ChatGPT ei laadinud".
Inseneride jaoks on see tõenäoliselt õpikunäide sellest, kuidas peened konfiguratsioonivigad jaotatud süsteemi tuumikus võivad üleilmseks internetisündmuseks muutuda.

Lehekülg 23 / 23