就在上週末,全球大量 Windows 用戶因為資安軟體 CrowdStrike 所出現的重大 Bug 而遭遇了嚴重的當機問題,其中甚至還包含了機場、醫院、銀行等公家單位,為民衆帶來了不小的影響。然而,即使這次的事件確實十分嚴重,但絕大部分的用戶都沒有碰到任何問題,而根據微軟近期公開的數據,實際受到此次事件影響的 Windows 裝置其實僅佔了整體的 1%。
1% 這個比例看似不高,但依照 Windows 系統的全球市占率來看,這次事件也影響了高達了 850 萬台相關裝置,因此,微軟承諾將會部署上百位 Windows 工程師和專家來與受到影響的消費者們合作,一同修復他們的裝置。微軟也直接與 CrowdStrike 合作,一同制定解決方案,而這間資安公司也發布了額外的聲明,詳細說明了造成這場大規模當機事件的技術問題。
這一切問題的始作俑者,就是一個收錄在 CrowdStrike 旗下 Falcon 平台最新更新的 Config 設定檔,這個檔案存在的 Bug 造成了一個重大的邏輯錯誤,進而導致使用 Falcon 檢測系統的 Windows 裝置陷入了「死亡藍白畫面」(BSOD) 的當機循環。
這次的更新原本的目的為「鎖定新觀察到,且常受到 C2框架在網路攻擊中所使用的惡意命名管道」,但在正式上線後,這個更新不但沒有解決問題,而導致一些非常重要的基礎設施陷入嚴重的問題,引發了巨大的連鎖反應。
CrowdStrike 隨後在後續的更新中修正了這個邏輯錯誤,而為軟也釋出了客戶端恢復工具來移除問題。在這個工具推出之前,管理員們需要以安全模式重啟他們的 Windows 裝置,或是恢復環境設置,並手動移除受 Bug 影響的檔案。
然而,不少用戶好奇存在如此重大錯誤的更新當初到底是如何像這樣公開發布的,最終造成了有史以來最嚴重的大當機事件之一。前微軟工程師 David W Plummer 在推特上發布了一則貼文,其內容比較了他任職於 Windows 團隊期間的除錯程序,以及這次事件之間的差異。
How we did this in the old days:
When I was on Windows, this was the type of thing that greeted you every morning. Every. Single. Morning.You see, we all had a secondary "debug" PC, and each night we'd run NTStress on all of them, and all the lab machines. NTStress would… pic.twitter.com/rZkvpujbcr
— Dave W Plummer (@davepl1968) July 20, 2024
就以這一次的事件來說,問題就在於一個通過了 WHQL 測試的CrowdStrike 驅動程式,這個程式能夠自行下載並執行未受到微軟登記的 p-code,進而形成了一個安全上的漏洞。基本上來說,即使這個經過第三方驅動程式確實受到了微軟的認證,但確能夠自行帶來一些充滿問題的更新。
這一次的事件導致了全球許多重要機構的 Windows 系統都陷入了嚴重的當機問題。雖然近年來,微軟經常因為伺服器相關問題而受到批評,但這間超大型科技公司也因為這次的事件而再次成為頭條新聞,很明顯的,這對微軟來說也不是一件光榮的事。就以目前來說,這場事件造成的問題似乎至少已經順利解決,但或許在未來針對第三方軟體的更新進行任證時,微軟團隊也會更加謹慎。