中國算力居世界第二!阿里雲宣布新突破:自研CPU已大規模應用

撰文:外部來稿(國際)
出版:更新:

11月3日,在2022雲棲大會上,阿里雲智慧總裁張建鋒宣佈,經過一年業務驗證,阿里首顆針對雲場景研發的CPU「倚天710」已大規模應用。這是中國首個雲上規模應用的自研CPU,而在未來兩年,阿里雲20%新增算力都將使用自研晶片。(編按:據人民網報道,近年來,中國算力產業規模快速增長,算力總規模居全球第二。)

本文獲《觀察者網》授權轉載。

一年前剛亮相時,倚天710的跑分表現是,性能超出業內標杆20%,能效比提升50%以上。在實際應用中,這顆「為雲而生」的CPU表現更加亮眼,倚天710雲實例與飛天作業系統及CIPU融合,在資料庫、大資料、視頻編解碼、Web伺服器等核心場景中的性價比提升30%以上,單位算力功耗降低60%以上。

「倚天710」由阿里巴巴集團負責晶片開發業務的平頭哥訂製,將應用於數據中心。(阿里巴巴官網)

在數字經濟時代,算力就是生產力。無論是線上購物、視頻直播還是自動駕駛、科學研究等,整個社會對算力的需求空前,這也推動了雲計算的爆發式增長。在當前國內「缺芯少魂」的狀況下,阿里自研CPU的突破可以說是為中國雲計算產業補上一塊重要短板。

「雲計算的發展進入了新的階段,晶片、作業系統和上層應用的原生融合已是大勢所趨,未來十年,軟硬體一體化的自研計算體系是雲服務商的立身之本,只有在核心技術和產品的研發上持續創新才能搶佔定義權。」張建鋒表示。

水滴石穿,非一日之功。阿里的算力攻堅之路早在十幾年前便已開啟。

為中國雲計算奠基

2007年,正值阿里業務高速發展期,淘寶網用戶體量急劇增長,尤其是脈衝流量帶來極大的不確定性,業務底層的IOE(IBM小型機、Oracle資料庫、EMC存儲)技術架構捉襟見肘,解決業務算力不足的問題似乎只有擴大採購規模這一條路。

2008年,就在阿里提出「去IOE」,用雲計算來為龐大複雜的業務搭建一套全新技術架構時,震驚了互聯網所有人。阿里內外,對雲計算的爭議不斷。但就在2009年,阿里啟動作業系統「飛天」的研發,並成立阿里雲,邁出算力和前沿科技探索的第一步,也拉開了中國雲計算的序幕。

圖為2019年2月,在西班牙舉行的全球移動通訊大會,阿里雲的展示攤位。(Getty)

飛天作業系統用分散式架構替換了傳統集中式架構,其目標就是將遍佈在全世界的伺服器連接在一起,這套架構不僅要讓阿里巴巴內部業務實現算力自由,也要讓算力成為一種可通用、可以線上獲取的資源。然而,分散式系統比傳統業務系統複雜度更高,當伺服器數量擴大到數千台時,系統性能、穩定性和運維等方面的技術挑戰就會指數級上升。

彼時,先發者美國一直扮演著雲計算引領者的角色,而中國雲計算基礎設施落後,生態系統建設乏善可陳。這似乎在昭示著中國即將「一步慢,步步慢」。就在這種自我懷疑中,飛天5K的發佈讓國際雲計算頂尖技術的目光彙聚到了西子湖畔。

2013年5月,阿里雲開發完成自有大規模部署系統和異常故障自動化處理系統等,大幅提升了對集群的全域掌控力,在全球範圍內首次實現單一集群5000台伺服器的規模,並率先對外提供這一能力,隨後短短數月再次突破單集群10K。

這也意味著阿里雲早期的算力底座正式落成。2017年,阿里雲第一代神龍架構問世,使用軟硬融合、軟硬體協同設計的模式,實現性能的0損耗,首次讓雲計算的算力潛力得到徹底釋放。

阿里巴巴集團阿里雲研發的杭州城市大腦2.0,已經成為杭州新基礎設施。杭州城市大腦2.0覆蓋420平方公里,接管1300個路口信號燈、接入4500道路監控系統,通過七大生命體徵全面感知城市交通,並通過移動終端直接指揮杭州逾200名交警,如派交警機動隊去現場處置交通事故等。(資料圖片)

向「硬核」進發

技術上不斷攻堅克難,讓阿里雲連續多年穩坐亞太第一、全球前三雲計算廠商的位置。但雲計算業務的成功,只是阿里算力長征的微小一步,這家公司開始向更底層的硬體和晶片發起了挑戰。

2017年達摩院成立,明確在AI、量子計算、自動駕駛、晶片和5G等前沿技術領域展開探索互聯網巨頭向硬科技轉身的強烈決心開始向外界傳遞。

與此同時,萬億美元的雲計算市場正迎來一個新的發展階段,「去IOE」之後,硬體體系正迎來新一輪的變革。2018年,阿里成立平頭哥半導體公司,開始向下定義硬體和晶片,也意味著算力的深階進發。

阿里巴巴成立晶片公司「平頭哥半導體有限公司」。(視覺中國)

2019年,平頭哥發佈阿里第一顆晶片含光800,實現在AI場景深度定制,創造了性能和能效比的兩項第一。2021年,阿里正式發佈首個通用CPU晶片倚天710,性能超過業界標杆20%,能效比提升50%以上。更為關鍵的是,倚天710針對雲場景設計研發,其在設計之初就兼顧了易用性,為複雜晶片應用落地難排除了巨大障礙,也為倚天710實現對外規模化商用奠定了重要一步。

與此同時,神龍計算平臺也在不斷反覆運算,已成長為一個全新的管控和加速中心,名為CIPU,它打破了以CPU為中心的傳統雲計算架構,帶來向上接入作業系統,向下對資料中心的計算、存儲和網路資源快速雲化並進行硬體加速。

2022年杭州雲棲大會。(觀察者網)

今年雲棲大會上,基於倚天710的雲實例與飛天作業系統及CIPU融合,首次實現了晶片、計算架構及作業系統的協同優化,算力性價比提升超30%,單位算力功耗降低60%,倚天710成為中國首個雲上大規模商用的自研CPU,也是阿里在算力關鍵技術上的重大突破。

算力的長征

過去十多年,數字經濟的飛躍式發展將人類社會帶到了算力時代,算力作為新型生產力,成為社會經濟發展的新引擎,也被認為是衡量國力的重要指標。

中國已在這場競爭中走在世界前列,截至2022年6月,中國在用資料中心機架總規模超過590萬標準機架,伺服器規模約2000萬台,算力總規模超過150 EFlops,位元列全球第二。

算力發展迅猛的背後,離不開晶片、伺服器、資料中心和雲計算等算力產業鏈的日臻完善,雲計算重構了算力體系,為未來算力增長提供新的動力。然而,未來算力的終極形態遠未到來,這也驅使科技企業不斷向新的技術發起挑戰。

在底層計算體系結構上,阿里展開了新型計算範式的探索。

阿里雲智能總裁兼阿里巴巴達摩院院長張建鋒。

2021年,達摩院成功研發全球首款基於DRAM的3D鍵合堆疊存算一體晶片。用存算一體晶片攻克傳統馮·諾依曼架構存儲計算分離的性能瓶頸,打造一個新型計算體系結構。這一成果有望為未來AI場景提供更高效率的算力。

面向更長遠的計算需求,阿里還在持續佈局量子計算,努力顛覆傳統計算的潛力。基於新型超導量子比特fluxonium,阿里量子實驗室成功設計並製造出兩比特量子晶片,實現單比特操控精度99.97%,兩比特iSWAP門操控精度最高達99.72%,取得此類比特全球最佳水準。

算力攻堅的長征,這才剛剛開始。