Online: 884 online | Members: 0 | Guests: 884
Ahad, Jun 14, 2026

Pada 18 November 2025, sepotong besar internet jatuh.
Jika Anda membuka ChatGPT, X (Twitter), League of Legends, Shofify, Coinbase, atau situs yang lebih kecil yang tak terhitung banyaknya, Anda disambut dengan halaman kesalahan Cloudflare-branded 5xx—atau situs tidak akan memuat sama sekali. Apa yang terlihat pada awalnya seperti lagi besar \"net internet rusak\" saat ternyata menjadi sesuatu yang lebih halus dan, dalam beberapa hal, lebih khawatir: bug yang dilakukan sendiri jauh di dalam infrastruktur Cloudflare sendiri.

Di bawah ini adalah jalan yang rinci melalui Apa yang terjadi di Cloudflare outage kemarin (18 November 2025)Mengapa itu terjadi, siapa yang terkena dampaknya, dan pelajaran apa yang harus diambil oleh tim infrastruktur.

cloudfaledown.png

 


Apa yang sebenarnya terjadi kemarin?

On Selasa, 18 November 2025, sekitar pagi UTC, Cloudflare mulai mengembalikan volume besar Kesalahan server HTTP 5xx Kecelakaan lalu lintas yang melewati jaringannya. Untuk pengguna akhir, itu berarti \"Internal Server Error\" atau \"Gateway Error\" halaman ketika mencoba mengakses banyak situs web dan aplikasi populer.

Menurut blog Cloudflare sendiri pasca-insiden, outage:

  • Melewati dampak lalu lintas HTTP pelanggan di UTC

  • Kesalahan 5xx 5x yang tersebar luas di jaringan CDN dan layanan keamanan

  • Ada mitigasi besar langkah di sekitar 2011-06-05–14:30 UTC

  • Volume galat 5xx kembali ke baseline oleh UTC Blog Cloudflare

Cloudflare sendiri digambarkan sebagai Keguguran terburuk sejak 2019Karena tidak hanya mempengaruhi satu fitur atau dashboard – ia mengganggu lapisan proksi inti yang rute mayoritas lalu lintas pelanggan melalui jaringannya. Blog Cloudflare

Pemantauan pihak ketiga mendukung ini. Amerika/Casino Mata mata mata mata melihat Kehabisan global Mempengaruhi Cloudflare, dengan waktu habis dan kesalahan 5xx pada layanan seperti X, OpenAI (ChatGPT), dan Anthropic, sementara jalur jaringan sendiri tampak sehat. Yang menunjuk kuat kepada Kegagalan layanan backend backendBukan masalah tingkat ISP atau routing. Mata Ribu

 


Siapa yang terpengaruh?

Karena Cloudflare duduk di depan sebagian besar internet (sekitar 20% situs web bergantung pada Cloudflare untuk kinerja dan keamanan), radius ledakan sangat besar. Berita + + + + + + Perancis

Di antara jasa yang dilaporkan sebagai dampak:

  • Open ChatGPT / OpenAI

  • (sebelumnya Twitter)

  • Kedai, Kedai, Dropbox, Coinbase

  • Liga Legenda Dan panggung game lainnya

  • Berbagai Situs publik transit dan pemerintah, termasuk New Jersey Transit dan sistem digital kereta api SNCF Prancis Berita + + + + + + Perancis

Pelacak keluar kota seperti yang direkam oleh Downdetector Ribuan laporan isu yang berkontur Di puncak. Reuters melaporkan sekitar 5.000 pengguna yang terpengaruh untuk X sendiri pada satu titik, sebelum penghitungan ditolak sebagai fixes digulung. Reuters

Dari sudut pandang seorang pengguna, ini dimanifestasikan sebagai:

  • Situs-situs yang tidak memuat sama sekali

  • Log masuk mengalir gantung atau gagal (terutama di mana Cloudflare Access atau ternyata terlibat)

  • API yang bereaksi secara sementara atau dengan 5xx error

  • Penghitungan waktu panel dan papan dasbor serta panel admin

Dengan kata lain, bagian - bagian besar Internet ” merasa down”, meskipun akar penyebabnya terkonsentrasi dalam sistem internal penyedia tunggal.

 


Bagaimana Cloudflare biasanya bekerja (dalam istilah sederhana)

Untuk memahami mengapa pemadaman ini begitu parah, membantu mengetahui jalan kasar dari permintaan melalui jaringan Cloudflare.

Cloudflare bertindak sebagai undo-typeKANTOR:

  1. Pelayar atau aplikasi anda terhubung ke Cloudflare daripada langsung ke situs asal.

  2. TLS dan HTTP dihentikan di ujungnya.

  3. Permintaan yang diminta mengalir ke Cloudflare Sistem proksi inti Ukraina, disebut FL ( \"Frontline\") Dan generasi barunya. FL2.

  4. Proksi inti itu:

  • Applies Applise WAF (firewall aplikasi web) ♪ Aturan ♪

  • Perancis Manajemen Bot Alfa model

  • Pemegang Perlindungan DDoS, caching, egreg ke asal

  • Rute rute lalu lintas ke produk internal lain seperti Pekerja, ♪ ♪ R2 ♪, Akses, dll. Blog Cloudflare

Dalam operasi normal arsitektur ini sangat tangguh: jika salah satu pusat data memiliki masalah, lalu lintas di rutekan melalui orang lain; perubahan konfigurasi digulung dengan hati-hati; fitur individu harus gagal dalam cara yang terkandung.

Kehampaan kemarin sangat buruk karena kegagalan itu berada di dalam jalan proksi umum itu sendiri, dan itu erat ditambah dengan file konfigurasi yang akan didorong di seluruh dunia Sering dan otomatis.

 

 


akar penyebab: sebuah robot-management file fitur pergi nakal

Penjelasan resmi Cloudflare menunjuk kepada satu pelaku utama:
Buat sebuah berkas konfigurasi fitur yang digunakan oleh sistem manajemen Bot mereka. Blog Cloudflare

Berikut rangkaian peristiwa dalam bahasa sederhana:

  1. Werner Bot Bot Management menggunakan sebuah \"file feature\"

    • Model robot-deteksi Awan Awanflare mengandalkan satu set \"features\" – sinyal tentang setiap permintaan yang digunakan untuk memutuskan apakah itu manusia atau robot.

  2. Fitur-fitur ini dibundel ke file konfigurasi yang diregenerasi setiap beberapa menit Karena itu Cloudflare dapat beradaptasi dengan cepat dengan pola serangan baru. Blog Cloudflare

  3. ¡Perubahan dalam perilaku kueri Klik Rumah

    • Berkas fitur dihasilkan oleh pertanyaan terhadap basis data ClickHouse.

  4. Cloudflare membuat perubahan di sekitar UTC Untuk meningkatkan keamanan dan izin untuk pertanyaan yang didistribusikan – memungkinkan pengguna untuk melihat data meta bukan hanya dari sebuah default skema tetapi juga dari tersembunyi r0 Meja. Blog Cloudflare

  5. Pertanyaan lema yang membangun daftar fitur tidak disaring dengan nama basis data; tiba-tiba mulai didapat Dua kolom pendua dari keduanya default Dan r0, efektif ** Menggandakan jumlah baris fitur.

  6. Berkas fitur meledak dalam ukuran

    • Modul Manajemen Bot memiliki Batas keras Xüdin berapa banyak fitur yang akan diterima (ditetapkan menjadi 200, baik di atas ~60 biasanya digunakan).

    • Ketika file yang baru dihasilkan melebihi batas itu, modul memukul cap dan panik, karena kesalahan tak tertangani dalam kode Rust yang digunakan Result::unwrap() Pada nilai kesalahan. Blog Cloudflare

  7. Layanan proksi Core Ubuntu mulai mengembalikan 5xx errors

    • Karena Manajemen Bot diintegrasikan ke dalam jalur proksi inti, panik muncul sebagai Respons HTTP 5xx Kemacetan apapun yang bergantung pada modul itu.

    • Pada yang baru FL2 Mesin , pelanggan melihat eksplisit 5xx error.

    • Di atas FL Mesin, robot skor diam-diam pergi ke nol, yang dapat menyebabkan positif palsu dalam aturan blok-bot. Blog Cloudflare

  8. Bagian yang benar-benar jahat: file terus membalik antara \"baik\" dan \"buruk\"

    • Kluster Klik Rumah sedang Diperbarui secara bertahapDan file fiturnya diregenerasi setiap lima menit.

    • Kadang-kadang pertanyaan dijalankan pada node yang dimutakhirkan (memproduksi berkas buruk), kadang-kadang pada node non-updated (memproduksi berkas yang baik).

    • Itu berarti untuk sementara waktu, jaringan Cloudflare berosilasi antara operasi normal dan kegagalan sebagai versi berbeda dari berkas tersebut dipropagasi. Blog Cloudflare

osilasi ini membuat situasi ini sangat membingungkan secara internal. Pada awalnya, tim Cloudflare menduga Serangan besar DDoS Karena pola kesalahannya tidak terlihat seperti kecelakaan perangkat lunak sederhana. Bahkan Cloudflare page status, yang diadakan di luar infrastruktur mereka sendiri, secara singkat menunjukkan kesalahan – kebetulan yang lebih lanjut memicu kecurigaan serangan eksternal. Blog Cloudflare + + + + + + Perancis

Hanya setelah mereka menyadari faktor yang umum adalah file fitur bot apakah gambar menjadi jelas.

 

 


Garis waktu insiden

Berdasarkan laporan postmortem Cloudflare dan pihak ketiga, kita dapat menyusun garis waktu kasar untuk 18 November 2025: Blog Cloudflare2 +2Mata Ribu2 +2

  • UTC – Perubahan kendali akses basis data dikerahkan di ClickHouse.

  • [3] 11:20–11:30 UTC Versi buruk dari berkas fitur Bot Management mulai dihasilkan dan dipropagasi.

  • UTC – Dampak pelanggan pertama: galat HTTP 5xx meningkat terlihat pada lalu lintas pelanggan.

  • 43011:30::32 UTC – Alat pemantauan eksternal dan tes otomatis mulai mendeteksi kegagalan intermiten.

  • UTC – Cloudflare membuka panggilan insiden internal; penyelidikan dimulai.

  • ~11:48 UTC – Cloudflare menerbitkan pembaruan status yang meneguhkan suatu insiden. Zed

  • 23:30–13:05 UTC Tim-tim Feague – berfokus pada apa yang tampaknya adalah perilaku pekerja KV yang terdegradasi dan menyelidiki berbagai kemungkinan penyebab (termasuk skenario serangan).

  • UTC Mitigasi Kunci: Pekerja Workers KV dan Cloudflare Access digeser ke bypass proksi inti; dampak dikurangi. Blog Cloudflare

  • UTC Akar akar penyebab diidentifikasi; generasi dan propagasi berkas fitur buruk dihentikan. Berkas konfigurasi yang dikenal-baik dimasukkan secara manual dan proksi inti diulanghidupkan. Kebanyakan lalu lintas inti kembali normal. Blog Cloudflare

  • 14:40–15:30 UTC – Masalah Dashboard dan login berlarut - larut sebagai log balik dari upaya otentikasi yang menciptakan lonjakan beban sekunder. Blog Cloudflare

  • UTC – Error rate rate return to baseline; Cloudflare menyatakan sistem sepenuhnya normal. Blog Cloudflare

Dari sudut pandang seorang pengguna, penyakit yang dideritanya terasa sangat parah Pagi - pagi di pagi hari pagi - sore hari UTCNamun, dampak yang tepat dari jendela yang bervariasi oleh daerah dan oleh itu produk Cloudflare setiap layanan bergantung.


Mengapa ini terjadi?

Risiko Operasi Centralisasi

Cloudflare adalah bagian dari satu set kecil penyedia infrastruktur internet pusatDi samping platform awan utama (AWS, Azure, GCP) dan CDN besar lainnya. Saat salah satu pemain ini gagal, dampaknya luas dan sering kali tidak terlihat.

Kelurahan ini:

  • Tak berasal dari BGP routing mishhap atau pemotongan kabel ISP.

  • Kecurigaan itu tidak berasal dari serangan jahat (menanggapi kecurigaan awal).

  • Berasal dari Ubi konfigurasi tunggal dan batasan Di dalam komponen internal.

Itu penting karena itu menunjukkan bagaimana Komplek, ketat-coupled sistem Malapetaka bisa gagal bahkan tanpa gangguan eksternal. Ketika banyak organisasi membangun pada penyedia yang sama, penyedia tersebut menjadi de-facto Secara sistematik bagian penting dari internet.

Ketergantungan \"Soft\" terluka juga

Beberapa layanan yang terkena tidak hanya menggunakan Cloudflare sebagai CDN yang bodoh. Mereka adalah:

  • Nama Akses Cloudflare Autentikasi dan akses tanpa kepercayaan.

  • Nama Pekerja Worker KV Diambil sebagai bagian dari pesawat kendali internal.

  • Mengandalkan kembali pada Menjijikkan Untuk log masuk bot tahan. Blog Cloudflare + + + + + + Perancis

Ketika produk-produk gagal, itu bukan hanya konten website yang turun – Log masuk, fungsi admin, dan API internal Tidak ada yang pecah juga. Yang membuat pemulihan lebih kompleks: halaman status, alat-alat insiden, atau admin UI mungkin juga mengandalkan penyedia yang baru saja gagal.

 

 


Apa yang dikatakan Cloudflare akan berubah

Blog Cloudflare berisi beberapa langkah remediasi yang sudah dilakukan perusahaan untuk mengurangi risiko apa pun yang terjadi: Blog Cloudflare

  1. Infestasi dari berkas konfigurasi auto-generasi
    Perlakukan konfigurasi yang dijangkitkan secara internal dengan skeptisisme yang sama dan validasi sebagai input yang diberikan pengguna, termasuk pemeriksaan skema dan ukuran yang ketat sebelum rollout.

  2. Lebih banyak saklar mematikan global
    Memudahkannya untuk menonaktifkan modul internal problematik (seperti Bot Management) di seluruh jaringan, sehingga mereka gagal Terbuka Ketimbang panik sepanjang jalan proksi.

  3. Melindungi sumber daya sistem dari badai kesalahan
    Pastikan bahwa core dump, data meta debug, dan observabilitas tooling tidak dapat overwhelm CPU dan memori ketika kesalahan mulai meningkat.

  4. Tinjau mode kegagalan meninjau modul proksi inti
    Secara sistematik mengaudit bagaimana setiap modul internal berperilaku di bawah input atau konfigurasi yang tidak terduga, dan memastikan degradasi yang anggun daripada kegagalan global.

  5. Memurnikan gulungan dan isolasi
    Meskipun tidak dieja secara rinci, insiden menunjukkan Aquidon Cloudflare kemungkinan akan lebih lanjut segmen bagaimana konfigurasi baru dan perilaku DB menyebarkan, untuk mengurangi kemungkinan bahwa perubahan tunggal buruk mempengaruhi seluruh armada.

Mereka juga menuduh insiden tersebut sebagai kegagalan mutlak dari harapan mereka untuk bertahan, menyebutnya \"tidak dapat diterima\" dan secara eksplisit mengakui rasa sakit yang ditimbulkannya baik pelanggan maupun pengguna internet biasa. Blog Cloudflare


Pelajaran untuk tim infrastruktur & SRE

Bahkan jika Anda tidak menjalankan sesuatu sebesar Cloudflare, ada beberapa pelajaran desain dan operasional yang sangat praktis dalam outage ini:

Perlakukan config internal seperti input tidak dipercaya

Mudah untuk menganggap konfigurasi yang dihasilkan ” kita sendiri ” selalu benar. Kemarin menunjukkan mengapa hal itu berbahaya:

  • Wiski selalu mengesahkan Ukuran, bentuk, dan batas Ijin berkas konfigurasi sebelum menerapkannya.

  • Pertimbangkan Aplikasi kenari dari config ke subset kecil lalu lintas atau node pertama, dengan otomatis rollback pada anomali.

  • Jaga ketat Batas atas ufuk Pemutus sirkuit di sekitar jumlah fitur, preallokasi memori, dan penggunaan CPU.

Desain untuk kegagalan parsial yang anggun

Salah satu bug dalam modul Manajemen Bot seharusnya tidak dapat panik seluruh jalan proksiKANTOR:

  • Default ke gagal-open vs gagal-tertutup Di beberapa lapisan keamanan ketika alternatifnya selesai.

  • Build jelas, diuji suis pembunuh si pembunuh Untuk fitur non-core.

  • Kepastian sub-sistem kritis (auth, halaman status, alat insiden) dapat beroperasi dalam mode terdegradasi atau melalui rute alternatif.

Perhatikan KANAN Sinyal signal

osilasi antara \"konfigurasi yang baik\" dan \"konfigurasi yang buruk\" setiap lima menit membuat sinyal terlihat seperti lalu lintas serangan atau perilaku luar yang bising:

  • Pastikan Anda memiliki versi-per Fiji atau ** per-config korelasi dalam saluran pipa observabilitas Anda.

  • Build dashboards yang membuat konfigurasi berubah secara visual jelas di atas grafik kesalahan.

  • Termasuk kuat Hasil tes sintetis Dari sudut pandang eksternal, Anda dapat dengan cepat membedakan kegagalan internal dari masalah jaringan/jalur.

Jangan masukkan semua telurmu ke dalam keranjang infra

Organisasi yang menggunakan Cloudflare:

  • Pertimbangkan multi-CDN Jebakan untuk benar-benar sifat kritis misi.

  • Hindari membuat Anda page status Secara keseluruhan bergantung pada penyedia yang sama dengan tumpukan primer Anda (Cloudflare melakukan hal ini, tetapi ada masalah kebetulan dengan host halaman status mereka kemarin yang membingungkan hal-hal lebih lanjut). Blog Cloudflare + + + + + + Perancis

  • Pikirkan dua kali sebelum mengikat erat Anda Autentikasi Gagal, Pesawat kontrol APIDan Penyerahan frontend kapal selam Ke vendor yang sama tanpa jalan mundur.


Gambar yang lebih besar

Dalam beberapa bulan terakhir saja, kami telah melihat masalah besar di Microsoft Azure, Layanan Web Amazon Kelayan, dan sekarang Cloudflare, semua yang telah sementara mengetuk besar potongan layanan konsumen dan perusahaan offline. Berita2 +2The Washington Post2 +2

Polanya jelas:

  • Internet semakin meningkat Bergantung pada segelintir penyedia infrastruktur raksasa.

  • Kehabisan Makanan sering kali Buat diri sendiriBerasal dari perubahan internal yang kompleks daripada serangan luar.

  • Bahkan penyedia penyedia dengan SRE praktek kelas dunia masih bisa tersandung oleh Interaksi tak terduga antara konfigurasi, perilaku basis data, dan batas terkode-keras.

Kejadian Cloudflare kemarin adalah pengingat yang luar biasa bahwa \"awan\" bukan sihir. Di bagian bawah, perangkat lunak ini masih ditulis oleh manusia, tunduk pada kelas bug yang sama dengan aplikasi lainnya—hanya dengan perintah magnitude lebih banyak orang bergantung padanya.

Bagi para pengguna, insiden itu kebanyakan akan diingat sebagai ” pagi itu ketika X dan ChatGPT tidak mau memuat barang. BAHWA ”
Bagi para insinyur, kemungkinan besar akan dipelajari sebagai contoh buku pelajaran bagaimana Serangga konfigurasi halus yang halus dalam sistem terdistribusi inti dapat merobek keluar ke dalam acara internet global.

Latest Articles

Read More...
date dark
hits dark 3501