You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

谷歌死機事故|雲端服務中斷 敲響企業警鐘

By on June 23, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech——智情筆報

科企谷歌(Google)雲端服務在本月中,全球服務一度中斷約6小時。不少提供或使用人工智能(AI)服務的企業,例如OpenAI、Shopify,以及代碼分享平台GitHub、網安供應商Cloudflare等,均表示受事故影響,出現用戶無法正常登入或使用服務的情況。

不久之後,Google官方發表事故調查報告,交代原因出自上月底一項「服務控制」(Service Control)新功能,旨在管理服務配額政策,可是相關代碼隱藏着一個「空指標」(Null Pointer)錯誤,到事故當日輸入政策資料時觸發,引致程式崩潰、無限重啟。

反思小錯釀大災風險

令人注意的是,報告包含了以下一段話:「這項變更的問題是,它缺乏適當的錯誤處理機制,也沒透過功能旗標(Feature Flag)保護……如果這項功能有使用旗標來保護的話,問題本來應該可以在預備階段時就發現出來。」

「功能旗標」是軟件開發的一項基礎設計,能夠在不重新部署整個系統下,啟用或停用特定的功能。它有點像是電箱內的跳掣,獨立控制不同區域或設備的電力供應,若有某項功能出現異常,只需關掉對應跳掣,便可即時斷開問題所在,避免波及整個系統。

這場意外提醒我們,再龐大的公司也會犯錯。儘管擁有全世界最頂尖的工程師、最先進的部署架構,Google今次仍難逃一場小錯釀大災的命運,事故亦為本地企業敲響警鐘。

設後備方案刻不容緩

現時不少企業高度依賴雲端平台和第三方應用程式介面(API),以運作AI模型或提供服務。為應對突如其來的供應商故障,必須準備好對應的災難復原(DRP)或業務持續計劃(BCP),設置多重備援方案,保障業務不被拖垮。

不少企業高度依賴雲端平台及第三方API,以運作AI模型或提供服務。(Google網上圖片)

對開發者而言,這亦是一堂基礎安全課,任何功能若缺乏穩定與可控手段,最終只會成為風險源頭。工程固然需要速度,但不是盲目的快。最基礎的「功能旗標」,抑或錯誤容忍與模組化架構,都不是可有可無,而是保障系統順暢運作的基本功。最後,不妨用一本技術書籍介紹「功能旗標」的文字作結,「創建一個可控更新的機制……用工程力量和時間,換取一定的可靠性保障是很划算的。」該書名為《網站可靠性工程:Google的系統管理之道》(Site Reliability Engineering : How Google Runs Production Systems),而作者正是Google團隊成員。

 右一為技術書籍《網站可靠性工程:Google的系統管理之道》。(Google網上圖片)

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們