Cloudflare全球「死機」因配置錯軟件更新 專家教用戶兩招自保
昨晚(2日)近10時,本港有多個網站出現「死機」,包括連登討論區、高登討論區,及立場新聞、《東方日報》網頁等,均顯示「502 Bad Gateway」訊息。約半小時才陸續恢復運作。
提供DDoS緩解服務與DNS服務的美國互聯網服務公司Cloudflare,於本港時間今日(3日)凌晨4時,詳細指出「死機」是定期作軟件更新時,出現一個配置錯誤所造成的意外,並再半小時內修復,澄清並非遭到駭客攻擊。
信息安全專家龐博文建議,各論壇網站應使用至少兩間服務供應商,設置兩層防禦來抵擋攻擊;及透過更改DNS伺服器,短暫恢復運作,其後再轉回Cloudflare的DNS伺服器,以避免同類「死機」事件發生。
昨晚9時50分起,本港多個使用Cloudflare域名代理服務的網站無法無法登入,出現「502 Bad Gateway」的訊息。
互聯網大規模癱瘓,本港網民無法瀏覽有關網站,不少人即懷疑是駭客攻擊,及傳出是Cloudflare的伺服器受攻擊而「死機」。其後Cloudflare行政總裁Matthew Prince在社交網站Twitter貼文,指所有服務受到影響,但並非受網絡攻擊。
一個錯誤致發生前所未見CPU衰竭事件
經調查後,Cloudflare於本港時間今日(3日)約凌晨4時,透過網誌詳細交代事故報告,指在世界協調時間(UTC)7月2日下午1時42分(約本港時間晚上9時42分),網站作定期更新網頁應用程式防火牆(Web Application Firewall, WAF)的規則時,以用來改善在面對網絡攻擊時封鎖JavaScript的能力,會先在模擬模式中測試,確定無誤再部署至生產環境。
Cloudflare指,由於WAF規則為一次性全球部署,而非漸進式。當中一個規則所含的正規表示式,導致其全球伺服器的CPU使用率飆升至100%,令使用其代理的網站出現502錯誤,亦令Cloudflare的流量最高曾下跌82%,導致全球大「死機」。Cloudflare形容情況是「前所未見的CPU衰竭事件。」(an
unprecedented CPU exhaustion event)
其後Cloudflare決定將受影響的WAF規則集還原並測試,至本港時間晚上10時09分,流量恢復正常。Cloudflare坦言測試程序不足,會檢視部署程序等,避免同類事件再發生。
使用該服務的網站出現502錯誤狀況,持續約27分鐘。信息安全專家龐博文認為,Cloudflare能於短時間內解決問題,證明危機處理能力很高,並笑稱同類情況在行內時有發生。由於Cloudflare屬零售式服務,任何網站只需花費數十至數百美金就可使用,「主要是論壇、討論區及網頁等大眾化服務在使用,所以牠們一旦出現技術事故,就會大規模出事。」而政府、金融業及基礎建設等網絡,則會使用專門服務。
他建議網站用戶不應只用一間服務供應商來抵擋攻擊,設置兩層防禦有備無患;此外,當遇上同類事故,用戶可在路由器上設置,更改DNS伺服器,以即時恢復運作,待Cloudflare的DNS伺服器恢復正常才轉回使用。
他又形容,Digital Attack Map網站顯示的攻擊線路圖屬「日日都這麼壯觀」,為全球性、恒常狀態,「昨日見到的攻擊是流量攻擊。而且典型的DDoS攻擊(分散式阻擋服務攻擊),是以大量『喪屍』電腦作密集式流量攻擊。當電腦用家的安全意識不足,出現保安系統漏洞,就會很早成為『喪屍』電腦。」而駭客若是針對性、有目標攻擊網站,則會採用流量攻擊及軟件層攻擊的混合式。