2025 年,是雙十一的第 17 個年頭。
從外部看,這依舊是一場年度消費盛典;對阿里工程師而言,它不只是購物節,更是一次全鏈路的年度考試。
10 月,雙 11 剛拉開序幕,阿里就為這次大促定下了新的基調:“這是第一個淘寶閃購全面參與的雙十一,也是第一個 AI 全面落地的雙十一。”這一句定調,也標志著阿里底層技術體系已經從“全面上云”邁向了“全面 AI 化”的階段。
1 變量之一:閃購合并,兩大 App 打通
今年雙十一的最大變量之一,來自閃購業務的合并。
這是淘寶歷史上第一次將“閃購”與主站徹底融合——原本獨立的“淘寶閃購”App 與主淘寶端完成打通:即買即達、即時零售,外賣、奶茶、住宿、機票、服飾等商品都統一出現在淘寶的同一入口里。
在這次整合中,包括詳情頁,以及商品庫存系統,都在淘寶 App 上再重新做一遍,完成原生化整合,這對底層技術棧帶來了新的挑戰。
新的“閃購”以分鐘級交付著稱,對網絡容量、鏈路調度、數據庫一致性天然要求更嚴。當它首次融入淘寶主站,與飛豬、菜鳥等業務在同一架構上協同,整個系統的規模和復雜度被推到了極限。因此,表面看是業務整合,技術上幾乎等同一次“系統重啟”:過去各業務架構相對獨立、互訪有限;合并后,所有服務需在統一網絡空間內完成調用與數據交互。
阿里云雙 11 基礎設施技術負責人吳明見證了歷年技術演進:2013 年首次參與雙 11 時,團隊還在為支付峰值手動擴容;2019 年阿里全面上云,核心交易鏈路遷入云平臺;到 2022 年,淘系支付、物流、交易鏈路實現 100% 上云,系統穩定性上了新臺階。去年,阿里云啟用了超 100 萬核彈性算力,同時成本節省超 25%。
“但今年不一樣。”吳明說,“這是第一次在全棧 AI 架構下跑完一場雙 11。閃購的加入讓業務邊界被徹底打通,底座也必須被重新定義。”
這種“重新定義”很快在 8 月的一次巡檢中具象為危機:虛擬專有網絡服務 VPC 容量逼近 200 萬上限。
VPC 是云上的虛擬局域網,每個網元對應一臺邏輯主機。
當圍繞淘寶閃購業務,餓了么、飛豬、菜鳥等業務模塊深度融入,節點激增、互訪增多,同時,因為閃購的訂單量飛速增長,對云基礎設施 VPC 內的轉發網關(XGW)承載量急劇上升,容量告急。這幾乎已經觸及業界已知的最大生產級 VPC 規模上限,成為系統中的瓶頸。吳明形容:“就像春節高速公路突然多了幾萬輛車,所有數據流都要從一個口子過,隨時可能擁塞。”
一開始大家覺得這個問題還是比較棘手。
吳明補充說:“算力的問題都好解決,某種程度上來說就是加機器就行。但網絡是毛細血管,所有算力的通信、互訪、調用都要經過它。一旦它不通,整個系統都會‘堵車’。”
按常規做法,這種問題應通過“VPC 拆分”解決——將淘寶、高德、阿里國際等業務遷入各自獨立的 VPC,降低單 VPC 壓力。但距離雙十一僅剩兩個月,業務快速推進的情況下做這種大的調整不太現實,太晚了。
組建攻堅小組后,團隊迅速把命題從“要不要拆”轉為“在不拆的前提下如何擴容”。最終從軟件角度,提出了“云網關級聯方案”:在不影響現有業務的前提下,基于軟硬協同技術,通過在網關層擴展多級流表、打通超大 VPC 的邏輯互聯,使網絡容量實現橫向擴張。
結果是在雙十一前成功緩解了“撞墻”風險:整體容量提升約 30%,順利越過 200 萬閾值,完成了對生產級 VPC 規模上限的再定義。