خلاصه‌ای از قطعی بزرگ ۱۸ نوامبر کلودفلر

توضیحات: نوشته شده توسط: IT Pro; دسته: Blog; منتشر شده در 29 آبان 1404; بازدید: 5793

در ۱۸ نوامبر ۲۰۲۵، بخش بزرگی از اینترنت از کار افتاد.

اگر ChatGPT، X (توییتر)، League of Legends، Shopify، Coinbase یا سایت‌های کوچک بی‌شماری را باز می‌کردید، با یک صفحه خطای ۵xx با برند Cloudflare مواجه می‌شدید - یا اصلاً سایت‌ها بارگذاری نمی‌شد. چیزی که در ابتدا مانند یک لحظه بزرگ دیگر "اینترنت خراب است" به نظر می‌رسید، در واقع چیزی ظریف‌تر و از برخی جهات نگران‌کننده‌تر بود: یک اشکال خودساخته در اعماق زیرساخت خود Cloudflare.

در زیر، شرح مفصلی از آنچه در قطعی دیروز Cloudflare (۱۸ نوامبر ۲۰۲۵) اتفاق افتاد، دلیل آن، افرادی که تحت تأثیر قرار گرفتند و درس‌هایی که تیم‌های زیرساخت باید از آن بگیرند، آورده شده است.

دیروز واقعاً چه اتفاقی افتاد؟

روز سه‌شنبه، ۱۸ نوامبر ۲۰۲۵، حوالی اواخر صبح UTC، Cloudflare شروع به ارسال حجم زیادی از خطاهای سرور HTTP 5xx برای ترافیکی که از شبکه‌اش عبور می‌کرد، کرد. برای کاربران نهایی، این به معنای صفحات «خطای داخلی سرور» یا «خطای دروازه» هنگام تلاش برای دسترسی به بسیاری از وب‌سایت‌ها و برنامه‌های محبوب بود.

طبق وبلاگ پس از حادثه خود Cloudflare، قطعی:

تاثیرگذاری بر ترافیک HTTP مشتری از ساعت ۱۱:۲۸ UTC آغاز شد

خطاهای گسترده ۵xx در CDN اصلی و سرویس‌های امنیتی مشاهده شد

حدود ساعت ۱۳:۰۵ تا ۱۴:۳۰ UTC اقدامات اساسی برای کاهش خطا انجام شد

حجم خطای ۵xx تا ساعت ۱۷:۰۶ UTC به حالت اولیه بازگشت. وبلاگ Cloudflare

خود Cloudflare این را بدترین قطعی خود از سال ۲۰۱۹ توصیف کرد، زیرا فقط بر یک ویژگی یا داشبورد تأثیر نگذاشت - لایه پروکسی اصلی را که اکثر ترافیک مشتری را از طریق شبکه خود هدایت می‌کند، مختل کرد. وبلاگ Cloudflare

نظارت شخص ثالث این موضوع را تأیید کرد. شرکت Cisco ThousandEyes شاهد قطعی سراسری بود که Cloudflare را تحت تأثیر قرار داد و با وقفه‌ها و خطاهای 5xx در سرویس‌هایی مانند X، OpenAI (ChatGPT) و Anthropic همراه بود، در حالی که خود مسیرهای شبکه سالم به نظر می‌رسیدند. این موضوع به شدت به یک نقص سرویس backend اشاره داشت، نه یک مشکل در سطح ISP یا مسیریابی. ThousandEyes

چه کسی تحت تأثیر قرار گرفت؟
از آنجا که Cloudflare در مقابل بخش عظیمی از اینترنت قرار دارد (حدود 20٪ از سایت‌های وب برای عملکرد و امنیت به Cloudflare متکی هستند)، شعاع انفجار بسیار زیاد بود. AP News+1

از جمله سرویس‌هایی که تحت تأثیر قرار گرفته‌اند:

ChatGPT / OpenAI

X (قبلاً توییتر)

Canva، Shopify، Dropbox، Coinbase

League of Legends و سایر پلتفرم‌های بازی

سایت‌های مختلف حمل و نقل عمومی و دولتی، از جمله سیستم حمل و نقل نیوجرسی و سیستم‌های دیجیتال راه‌آهن SNCF فرانسه

AP News+1

ردیاب‌های قطعی مانند Downdetector هزاران گزارش مشکل همزمان را در اوج مصرف ثبت کردند. رویترز گزارش داد که در یک مقطع، تنها برای X حدود ۵۰۰۰ کاربر تحت تأثیر قرار گرفته‌اند، قبل از اینکه با ارائه اصلاحات، تعداد آنها کاهش یابد. رویترز

از دیدگاه یک کاربر، این مشکل به صورت‌های زیر خود را نشان می‌دهد:

سایت‌ها اصلاً بارگیری نمی‌شوند

جریان‌های ورود به سیستم قطع یا از کار می‌افتند (به‌خصوص در مواردی که Cloudflare Access یا Turnstile درگیر بودند)

APIها به‌طور متناوب یا با خطاهای ۵xx پاسخ می‌دهند

داشبوردها و پنل‌های مدیریتی با زمان‌بندی از کار می‌افتند

به عبارت دیگر: بخش‌های بزرگی از اینترنت "از کار افتاده" بودند، حتی اگر علت اصلی در سیستم‌های داخلی یک ارائه‌دهنده واحد متمرکز بود.

نحوه عملکرد معمول Cloudflare (به زبان ساده)

برای درک اینکه چرا این قطعی اینقدر شدید بود، دانستن مسیر تقریبی یک درخواست از طریق شبکه Cloudflare مفید است.

Cloudflare به عنوان یک CDN پروکسی معکوس و لایه امنیتی عمل می‌کند:

مرورگر یا برنامه شما به جای اتصال مستقیم به سایت اصلی، به Cloudflare متصل می‌شود.

Cloudflare TLS و HTTP را در لبه خود خاتمه می‌دهد.

درخواست‌ها به سیستم پروکسی اصلی Cloudflare به نام FL ("Frontline") و نسل جدیدتر آن FL2 جریان می‌یابند.

آن پروکسی اصلی:

قوانین WAF (فایروال برنامه وب) را اعمال می‌کند

مدل‌های مدیریت ربات را اجرا می‌کند

محافظت در برابر DDoS، ذخیره‌سازی و خروج به مبدا را مدیریت می‌کند

ترافیک را به سایر محصولات داخلی مانند Workers، R2، Access و غیره هدایت می‌کند. وبلاگ Cloudflare

در حالت عادی، این معماری بسیار مقاوم است: اگر یک مرکز داده مشکلی داشته باشد، ترافیک از طریق سایر مراکز داده هدایت می‌شود؛ تغییرات پیکربندی با دقت اعمال می‌شوند؛ ویژگی‌های منحصر به فرد باید به روش‌های کنترل‌شده‌ای از کار بیفتند.

قطعی دیروز دقیقاً بد بود زیرا خرابی در داخل مسیر پروکسی مشترک بود و به شدت با یک فایل پیکربندی که به طور مکرر و خودکار در سراسر جهان منتشر می‌شود، مرتبط بود.

علت اصلی: یک فایل ویژگی مدیریت ربات از کار افتاده است
توضیح رسمی Cloudflare به یک مقصر اصلی اشاره دارد:
یک فایل پیکربندی ویژگی که توسط سیستم مدیریت ربات آنها استفاده می‌شود. وبلاگ Cloudflare

در اینجا زنجیره رویدادها به زبان ساده آمده است:

مدیریت ربات از یک "فایل ویژگی" استفاده می‌کند

مدل تشخیص ربات Cloudflare به مجموعه‌ای از "ویژگی‌ها" متکی است - سیگنال‌هایی در مورد هر درخواست که برای تصمیم‌گیری در مورد انسان یا ربات بودن آن استفاده می‌شود.

این ویژگی‌ها در یک فایل پیکربندی قرار گرفته‌اند که هر چند دقیقه یکبار بازسازی و به صورت جهانی منتشر می‌شود، بنابراین Cloudflare می‌تواند به سرعت با الگوهای حمله جدید سازگار شود. وبلاگ Cloudflare

تغییر در رفتار پرس‌وجوی ClickHouse

فایل ویژگی توسط پرس‌وجوها در برابر یک پایگاه داده ClickHouse تولید می‌شود.

Cloudflare حدود ساعت 11:05 UTC تغییری ایجاد کرد تا امنیت و مجوزهای پرس‌وجوهای توزیع‌شده را بهبود بخشد - allo

کاربران بال می‌توانند فراداده‌ها را نه تنها از یک طرح پیش‌فرض، بلکه از جداول r0 زیرین نیز ببینند. وبلاگ Cloudflare

پرس و جویی که لیست ویژگی‌ها را ایجاد می‌کند، بر اساس نام پایگاه داده فیلتر نشده بود؛ ناگهان شروع به دریافت ستون‌های تکراری از هر دو حالت پیش‌فرض و r0 کرد و عملاً تعداد ردیف‌های ویژگی را دو برابر کرد.

فایل ویژگی از نظر اندازه به شدت افزایش یافت

ماژول مدیریت ربات محدودیت سختی در تعداد ویژگی‌هایی که می‌پذیرد دارد (روی ۲۰۰ تنظیم شده است، بسیار بالاتر از حدود ۶۰ مورد استفاده معمول).

هنگامی که فایل تازه تولید شده از آن محدودیت فراتر رفت، ماژول به دلیل خطای مدیریت نشده در کد Rust که از Result::unwrap() روی یک مقدار خطا استفاده می‌کرد، به محدودیت رسید و دچار وحشت شد. وبلاگ Cloudflare

سرویس‌های پروکسی اصلی شروع به بازگرداندن خطاهای ۵xx کردند

از آنجا که مدیریت ربات در مسیر پروکسی اصلی ادغام شده است، وحشت به عنوان پاسخ‌های HTTP 5xx برای هر ترافیکی که به آن ماژول وابسته بود، ظاهر شد.

در موتور جدید FL2، مشتریان خطاهای صریح ۵xx را مشاهده کردند.

در موتور قدیمی‌تر FL، امتیاز ربات‌ها بی‌سروصدا به صفر می‌رسید که می‌توانست باعث ایجاد مثبت کاذب در قوانین مسدود کردن ربات‌ها شود. وبلاگ Cloudflare

بخش واقعاً ناخوشایند: فایل مدام بین «خوب» و «بد» در نوسان بود.

خوشه ClickHouse به تدریج به‌روزرسانی می‌شد و فایل ویژگی هر پنج دقیقه بازسازی می‌شد.

گاهی اوقات پرس‌وجو روی گره‌های به‌روزرسانی‌شده اجرا می‌شد (یک فایل بد تولید می‌کرد)، گاهی اوقات روی گره‌های به‌روزرسانی‌نشده (یک فایل خوب تولید می‌کرد).

این به این معنی بود که برای مدتی، شبکه Cloudflare بین عملکرد عادی و خرابی در نوسان بود، زیرا نسخه‌های مختلف فایل منتشر می‌شدند. وبلاگ Cloudflare

این نوسان، وضعیت را از نظر داخلی بسیار گیج‌کننده کرد. در ابتدا، تیم‌های Cloudflare به یک حمله DDoS گسترده مشکوک شدند زیرا الگوی خطا شبیه یک خرابی نرم‌افزاری ساده نبود. حتی صفحه وضعیت Cloudflare که خارج از زیرساخت خودشان میزبانی می‌شود، به طور خلاصه خطاهایی را نشان داد - تصادفی که بیشتر به سوءظن حمله خارجی دامن زد. وبلاگ Cloudflare+1

تنها زمانی که متوجه شدند عامل مشترک، فایل ویژگی ربات است، تصویر واضح شد.

جدول زمانی حادثه
بر اساس گزارش‌های پس از وقوع Cloudflare و گزارش‌های شخص ثالث، می‌توانیم یک جدول زمانی تقریبی برای 18 نوامبر 2025 کنار هم قرار دهیم: وبلاگ Cloudflare+2ThousandEyes+2

11:05 UTC - یک تغییر کنترل دسترسی به پایگاه داده در ClickHouse اعمال می‌شود.

11:20-11:30 UTC - نسخه‌های بد فایل ویژگی مدیریت ربات شروع به تولید و انتشار می‌کنند.

11:28 UTC - اولین تأثیر بر مشتری: خطاهای HTTP 5xx بالا در ترافیک مشتری مشاهده می‌شود.

11:30-11:32 UTC - ابزارهای نظارت خارجی و آزمایش‌های خودکار شروع به شناسایی خرابی‌های متناوب می‌کنند.

11:35 UTC - Cloudflare یک فراخوان حادثه داخلی را آغاز می‌کند؛ تحقیقات آغاز می‌شود.

~11:48 UTC – Cloudflare یک به‌روزرسانی وضعیت منتشر می‌کند که یک حادثه را تأیید می‌کند. ارسال مجدد

11:30–13:05 UTC – تیم‌ها بر روی آنچه که به نظر می‌رسد رفتار Worker KV تخریب شده است تمرکز می‌کنند و چندین علت احتمالی (از جمله سناریوهای حمله) را بررسی می‌کنند.

13:05 UTC – کاهش کلیدی: Worker KV و Cloudflare Access برای دور زدن پروکسی اصلی تغییر داده می‌شوند؛ تأثیر کاهش می‌یابد. وبلاگ Cloudflare

14:30 UTC – علت اصلی شناسایی می‌شود؛ تولید و انتشار فایل‌های ویژگی بد متوقف می‌شود. یک فایل پیکربندی شناخته شده به خوبی به صورت دستی وارد می‌شود و پروکسی اصلی مجدداً راه‌اندازی می‌شود. بیشتر ترافیک اصلی به حالت عادی باز می‌گردد. وبلاگ Cloudflare

14:40–15:30 UTC – مشکلات داشبورد و ورود به سیستم همچنان ادامه دارد زیرا Turnstile و انباشت تلاش‌های احراز هویت باعث ایجاد افزایش بار ثانویه می‌شوند. وبلاگ Cloudflare

17:06 UTC – نرخ خطا به حالت اولیه بازمی‌گردد؛ Cloudflare سیستم‌ها را کاملاً عادی اعلام می‌کند. وبلاگ کلودفلر

از دیدگاه یک کاربر، قطعی برق در اواخر صبح تا اوایل بعد از ظهر UTC بدترین حالت را داشت، اگرچه بازه‌های زمانی دقیق تأثیر بر اساس منطقه و اینکه هر سرویس به کدام محصولات کلودفلر وابسته بود، متفاوت بود.

چرا این قطعی برق بسیار مهم است

ریسک تمرکز
کلودفلر بخشی از یک مجموعه کوچک از ارائه دهندگان زیرساخت اینترنت مرکزی است، در کنار پلتفرم‌های اصلی ابری (AWS، Azure، GCP) و سایر CDN های بزرگ. وقتی یکی از این بازیگران از کار می‌افتد، تأثیر آن گسترده و اغلب غیر آشکار است.

این قطعی برق:

از یک حادثه مسیریابی BGP یا قطع کابل ISP ناشی نشد.

از یک حمله مخرب ناشی نشد (علیرغم سوءظن‌های اولیه).

از یک پیکربندی واحد ناشی شد و اشکال را در یک جزء داخلی محدود می‌کند.

این مهم است زیرا نشان می‌دهد که سیستم‌های پیچیده و کاملاً متصل چگونه می‌توانند حتی بدون دخالت خارجی به طور فاجعه‌باری از کار بیفتند. وقتی بسیاری از سازمان‌ها بر اساس یک ارائه دهنده خدمات ایجاد می‌شوند، آن ارائه دهنده به یک بخش مهم سیستمی اینترنت تبدیل می‌شود.

وابستگی‌های «نرم» نیز آسیب‌زا بودند

برخی از سرویس‌های آسیب‌دیده فقط از Cloudflare به عنوان یک CDN بی‌معنی استفاده نمی‌کردند. آن‌ها عبارت بودند از:

استفاده از Cloudflare Access برای احراز هویت و دسترسی بدون اعتماد.

استفاده از Workers KV به عنوان بخشی از صفحات کنترل داخلی.

تکیه بر Turnstile برای ورود به سیستم مقاوم در برابر ربات. وبلاگ Cloudflare+1

وقتی این محصولات از کار می‌افتادند، فقط محتوای وب‌سایت نبود که از کار می‌افتاد - ورود به سیستم‌ها، توابع مدیریتی و APIهای داخلی نیز از کار می‌افتادند. این امر بازیابی را پیچیده‌تر می‌کند: صفحه وضعیت شما،

ابزارهای رخداد یا رابط کاربری ادمین نیز ممکن است به همان ارائه‌دهنده‌ای که تازه از کار افتاده است، متکی باشند.

آنچه کلودفلر می‌گوید تغییر خواهد کرد
وبلاگ کلودفلر چندین گام اصلاحی را که شرکت در حال حاضر برای کاهش خطر تکرار هر اتفاق مشابهی انجام می‌دهد، تشریح می‌کند: وبلاگ کلودفلر

مهار کردن فایل‌های پیکربندی تولید شده خودکار

با پیکربندی‌های تولید شده داخلی با همان شک و تردید و اعتبارسنجی مانند ورودی‌های ارائه شده توسط کاربر رفتار کنید، از جمله بررسی دقیق طرحواره و اندازه قبل از راه‌اندازی.

کلیدهای kill سراسری بیشتر

غیرفعال کردن سریع ماژول‌های داخلی مشکل‌ساز (مانند مدیریت ربات) در سراسر شبکه را آسان‌تر کنید، به طوری که آنها به جای ایجاد وحشت در کل مسیر پروکسی، در حالت باز از کار بیفتند.

از منابع سیستم در برابر طوفان‌های خطا محافظت کنید

اطمینان حاصل کنید که داده‌های اصلی، ابرداده‌های اشکال‌زدایی و ابزارهای مشاهده‌پذیری نمی‌توانند هنگام شروع به افزایش خطاها، CPU و حافظه را تحت فشار قرار دهند.

حالت‌های خرابی را در ماژول‌های پروکسی اصلی بررسی کنید

به طور سیستماتیک نحوه رفتار هر ماژول داخلی را تحت ورودی یا پیکربندی غیرمنتظره بررسی کنید و به جای خرابی سراسری، از تخریب مناسب اطمینان حاصل کنید.

اصلاح روندها و ایزوله‌سازی
اگرچه جزئیات زیادی در این مورد ذکر نشده است، اما این حادثه نشان می‌دهد که Cloudflare احتمالاً نحوه انتشار پیکربندی‌های جدید و رفتارهای پایگاه داده را بیشتر بخش‌بندی خواهد کرد تا احتمال تأثیر یک تغییر بد بر کل ناوگان را کاهش دهد.

آنها همچنین این حادثه را به عنوان یک شکست مطلق در انتظارات تاب‌آوری خود مطرح کردند و آن را "غیرقابل قبول" خواندند و صریحاً به دردی که هم برای مشتریان و هم برای کاربران عادی اینترنت ایجاد کرده است، اذعان کردند. وبلاگ Cloudflare

درس‌هایی برای تیم‌های زیرساخت و SRE

حتی اگر چیزی به بزرگی Cloudflare را اجرا نمی‌کنید، درس‌های طراحی و عملیاتی بسیار کاربردی در این قطعی وجود دارد:

با پیکربندی داخلی مانند ورودی‌های غیرقابل اعتماد رفتار کنید

به راحتی می‌توان فرض کرد که پیکربندی تولید شده "خودمان" همیشه درست است. دیروز نشان می‌دهد که چرا این خطرناک است:

همیشه اندازه، شکل و محدودیت‌های فایل‌های پیکربندی را قبل از اعمال آنها اعتبارسنجی کنید.

ابتدا اعمال پیکربندی به صورت قناری را برای زیرمجموعه کوچکی از ترافیک یا گره‌ها در نظر بگیرید و در صورت بروز ناهنجاری‌ها، به طور خودکار آنها را برگردانید.

مرزهای بالایی و قطع‌کننده‌های مدار دقیقی را در مورد تعداد ویژگی‌ها، پیش‌تخصیص حافظه و استفاده از CPU حفظ کنید.

طراحی برای خرابی جزئی مناسب
یک اشکال در ماژول مدیریت ربات نباید بتواند کل مسیر پروکسی را دچار اختلال کند:

در برخی از لایه‌های امنیتی، وقتی گزینه جایگزین، قطعی کامل است، پیش‌فرض به حالت باز-باز در مقابل بسته-بسته است.

برای ویژگی‌های غیر اصلی، سوئیچ‌های kill واضح و آزمایش‌شده بسازید.

اطمینان حاصل کنید که زیرسیستم‌های حیاتی (auth، صفحه وضعیت، ابزار حادثه) می‌توانند در حالت تخریب‌شده یا از طریق مسیرهای جایگزین کار کنند.

سیگنال‌های صحیح را مشاهده کنید
نوسان بین "پیکربندی خوب" و "پیکربندی بد" هر پنج دقیقه باعث می‌شد سیگنال مانند ترافیک حمله یا رفتار خارجی پر سر و صدا به نظر برسد:

مطمئن شوید که همبستگی هر نسخه یا هر پیکربندی را در خط لوله مشاهده‌پذیری خود دارید.

داشبوردهایی بسازید که تغییرات پیکربندی را از نظر بصری در بالای نمودارهای خطا آشکار می‌کنند.

آزمایش‌های مصنوعی قوی را از یک نقطه دید خارجی در نظر بگیرید، تا بتوانید به سرعت خرابی داخلی را از مشکلات شبکه/مسیر تشخیص دهید.

تمام تخم‌مرغ‌هایتان را در یک سبد مادون قرمز قرار ندهید

برای سازمان‌هایی که از Cloudflare استفاده می‌کنند:

برای ویژگی‌های واقعاً حیاتی، تنظیمات چند CDN را در نظر بگیرید.

از وابسته کردن کامل صفحه وضعیت خود به همان ارائه‌دهنده پشته اصلی خود خودداری کنید (Cloudflare این کار را انجام می‌دهد، اما دیروز مشکلی تصادفی با میزبان صفحه وضعیت آنها وجود داشت که اوضاع را پیچیده‌تر کرد). وبلاگ Cloudflare+1

قبل از اینکه احراز هویت، صفحات کنترل API و تحویل frontend خود را بدون مسیرهای جایگزین به همان فروشنده متصل کنید، دو بار فکر کنید.

تصویر بزرگتر
تنها در چند ماه گذشته، شاهد قطعی‌های عمده در Microsoft Azure، Amazon Web Services و اکنون Cloudflare بوده‌ایم که همگی به طور موقت بخش‌های بزرگی از خدمات مصرفی و سازمانی را آفلاین کرده‌اند. AP News+2 واشنگتن پست+2

الگو واضح است:

اینترنت به طور فزاینده‌ای به تعداد انگشت‌شماری از ارائه‌دهندگان زیرساخت غول‌پیکر وابسته است.

قطعی‌ها اغلب خودخواسته هستند و از تغییرات پیچیده داخلی ناشی می‌شوند تا حملات خارجی.

حتی ارائه‌دهندگانی که شیوه‌های SRE در سطح جهانی دارند، هنوز هم می‌توانند با تعاملات غیرمنتظره بین پیکربندی، رفتار پایگاه داده و محدودیت‌های کدگذاری شده، دچار مشکل شوند.

حادثه دیروز Cloudflare یادآوری آشکاری است که «ابر» جادو نیست. در اصل، هنوز نرم‌افزاری است که توسط انسان‌ها نوشته شده و مانند هر برنامه دیگری در معرض همان دسته از اشکالات قرار دارد - فقط با تعداد افراد بیشتری که به آن وابسته هستند.

برای کاربران، این حادثه بیشتر به عنوان «آن روز صبح که X و ChatGPT بارگذاری نشدند» به یاد خواهد ماند.

برای مهندسان، احتمالاً به عنوان یک نمونه درسی از چگونگی تأثیر اشکالات ظریف پیکربندی در یک سیستم توزیع‌شده اصلی بر یک رویداد جهانی اینترنت مورد مطالعه قرار خواهد گرفت.

خلاصه‌ای از قطعی بزرگ ۱۸ نوامبر کلودفلر

Latest Articles