中國科技2020|大數據背後的大國較量 Oracle技術霸權被誰破局
2020年年終的中共中央經濟工作會議上,中國政府為2021年發展重點部署八大任務。這場中共高層官員的工作會議,不僅將「強化國家戰略科技力量」列為下一年經濟發展首要任務,且坦言要通過舉國體制優勢發展高科技,「儘快解決一批『卡脖子』問題」。
顯然,在高科技領域的全球競爭中,中國要提高自己的話語權。回看2020年,中國在探月工程、火星探測、衛星導航、載人深潛、量子研究、數據庫技術替代、核聚變技術國際參與以及中微子實驗和晶片製造等領域,均有亮眼表現或國家戰略部署。
這些領域的科技研究,對應着怎樣的現實意義?中國的競爭優勢和現實挑戰格局如何?下一步的發展方向又在哪裏?
相對於華為停供引發輿論對中國晶片製造技術的高度憂慮和關注相比,數據庫管理系統(DBMS)是容易被忽略實際上卻非常重要的技術。簡單來說,今天人人知道的大數據就和數據庫技術息息相關,甚至可以說沒有數據庫就沒有國計民生。對於今天的中國來說,無論是要在中美競爭中打破美國的科技圍堵,還是中國自身要全面推進數字經濟轉型升級,數據庫技術的突破都顯得關鍵且迫切。
11月30日,2020年中國聯通科技創新大會上,中國科學院大學公管學院副院長、中國科學與科技政策研究會常務理事教授劉雲,再次列舉了中國被美國「卡脖子」的35項關鍵技術。比如光刻機,晶片,操作系統,手機射頻器件,激光雷達,核心工業軟件等。業內人士普遍認為,在數據庫領域,中國開發的分布式數據庫已登上歷史舞台,35項「卡脖子」技術清單已經可以劃掉一項。
這一場承載着中國大數據急速發展的技術破局戰背後,是中國數據庫軟件開發人員30年的蟄伏與「十年磨一劍」的破局之旅。
甲骨文迎來命中拐點
既然是破局,必然就說明在中國在自己的數據庫架構雛形出現之前,已經存在一個近乎霸主地位的平台,那就是IT行業眾人皆知的數據庫龍頭企業甲骨文(Oracle)公司。成立於1977年的Oracle是僅次於微軟(Microsoft)的全球第二大軟件公司,其核心產品是關係型數據庫軟件,市場佔有率多年來排名全球第一。到2010年,Oracle仍然控制着全球超過50%的數據庫,可謂是數據庫裏的「印鈔機」。
2010年,Oracle在TPC-C測試中跑出3024萬tpmC(tpm為transactions per minute的縮寫,tpmC意思為"每分鐘內系統處理的新訂單個數",被廣泛用於衡量計算機系統的事務處理能力)的成績,是一起參與測試的國際商業機器公司(IBM)的3倍。此後,被「吊打」的IBM再無還手之力,而「孤獨求敗」的Oracle不再參與成本高昂的TPC-C測試。
如此態勢之下,挑戰Oracle似乎是以卵擊石。但是機會很快出現。21世紀第一個十年,隨着淘寶網(Taobao)的電商業務席捲中國大地並很快超越美國在線購物網站eBay,不斷井噴的用戶數據不僅讓淘寶所在的阿里巴巴(Alibaba,簡稱阿里)集團成為Oracle最大的亞洲客戶,也挑戰着Oracle數據庫的能力極限。據說,從2007年到2009年的三年間,阿里花了幾千萬人民幣買 Oracle 產品+服務也沒辦法支撐數據成長的速度。
西諺有云,「上帝欲使人滅亡,必先使其瘋狂」(Those whom God wishes to destroy, he first makes mad)。2010年11月11日23時59分30秒,第二個淘寶「雙11」就要結束,支付寶核心賬務系統突然報警——數據庫資源即將耗盡。技術人員砍掉最後一個非關鍵應用的時候,距離整個系統崩潰只剩下4秒。
不僅是Oracle的集中式數據庫架構跟不上狂飆猛進的中國大數據發展,其成本高昂的標準配置(Oracle的標配是IBM小型機和EMC的高端存儲硬件)也讓一般用戶難以承受。2009年底,負責淘寶技術預算的劉振飛給領導層的PPT報吿最後以驚歎號結尾,粗體寫上一句:「淘寶2010年起不再購買小型機了!」 當時的預算結果顯示,隨着用戶數據的井噴式增長,未來為了滿足需求的採購費用已經接近甚至超過全部利潤。
彼時彼刻,被逼無奈的阿里技術團隊痛下決心開始執行「去IOE」計劃。(「去 IOE」計劃指的是擺脱掉IT部署中原有的IBM小型機、Oracle數據庫以及EMC存儲的過度依賴。)2013年5月,阿里集團最後一台IBM小型機在支付寶下線。2013年7月,淘寶廣吿系統使用的Oracle數據庫下線,也是整個淘寶最後一個Oracle數據庫。(此時此刻,雖然阿里創始人馬雲以及阿里系深陷資本無序擴張爭議,但是包括阿里旗下技術團隊在內的所有中國數據庫開發人員的實力以及其對中國數據庫技術發展的推動不可否認。)
傲慢的Oracle 公司居然對此並無察覺。2013年「雙 11 」過後,Oracle通知阿里巴巴,根據此前公布的 350 億人民幣成交總額補交數據庫服務費……其實不僅是阿里,對於中國乃至全球用戶來說,「IOE」架構相對封閉,容災成本高、運維成本高、快速擴容難,不適合互聯網企業長期發展。2019年10月15日,亞馬遜(Amazon)宣布消費者業務徹底棄用Oracle。亞馬遜首席技術官Werner Vogels表示,他在亞馬遜最開心的一天是公司關閉了最大的Oracle數據庫。
「稜鏡門」震醒中國政府
從大趨勢來看,Oracle數據庫衰退是必然。但是對於中國數據庫市場來說,撼動巨人使其離場並不容易。畢竟從1979年,中國銀行史上第一台計算機IBM3032在中國銀行(香港分行)啟用的那一刻,就已經意味着中國的整個信息技術體系都是遵循美國的技術架構和生態。
從1978 年中國人民大學經濟信息管理系首任系主任薩師煊第一次將「數據庫」這三個字寫在黑板上,到甲骨文借「九七工程」(1995年,中國政府要求全國縣以上的郵電局,在1997年底前讓通信系統完全實現數據共享)成功搶灘中國市場,中國根本沒有可以與甲骨文抗衡的數據庫公司或產品。
這個時期對於中國信息技術的發展來說,核心數據庫的應用主要解決的是有且能用的問題。至於是否國產、安不安全可控尚未引起足夠重視。雖然在此期間,中國政府已經提出並批准的一項高新科技發展計劃諸如863計劃、「973」規劃以及「核高基「(核心電子器件、高端通用晶片及基礎軟件產品)重大專項,但是「以美為師」氛圍下中國數據庫技術概念自主無疑還是「蟄伏」待醒狀態。
直到前文所提及的2010年前後,Oracle的高昂成本以及其集中式數據庫將數據儲存在一台服務器上的不堪重負,激發阿里巴巴這個中國互聯網巨頭企業,誓言闖出一條自主研發數據庫的破局之路。
破局之路註定艱難,僅有動力並不足夠。所以,阿里技術團隊OceanBase數據庫早期研發之路意料之內地充滿坎坷:先期MySQL能滿足淘寶大部分業務需求, OceanBase團隊瀕臨解散;業務系統改造量巨大,導致OceanBase無法如期上線……
幸運的是,在此期間,另一件事刺激中國政府不斷出手,動用國家宏觀政策的力量來推動中國數據庫的自主研發。2013 年6月,美國人斯諾登(Edward Joseph Snowden)給英國《衛報》和美國《華盛頓郵報》發送了一份絕密資料:美國 2007 年啟動了一項代號為「稜鏡」的秘密項目,要求電信巨頭威瑞森公司(Verizon Communications)必須每天上交數百萬用戶的通話記錄。消息一出,震驚的不僅僅是美國公民,大量使用美國信息軟硬件的中國公司同樣備受震動。中國政府如夢方醒,意識到使用美國數據庫的巨大國安風險。
國產數據庫迎來「天時地利人和」
中國政府的震驚,直接體現在2014年3月的全國兩會上,當年國務院總理李克強在《政府工作報吿》中首次提及「大數據」,呼籲「在新一代移動通信、集成電路、大數據、先進製造、新能源、新材料等方面趕超先進,引領未來產業發展。」潛伏在公眾視野以外的中國國產數據庫公司達夢、金倉、神通、南大等得到了廣泛關注,但這些數據庫多應用於央企、國家財政、軍事等專用領域。
中國政府開始加大要求採購國產數據庫的範圍與力度,並且隨着近年來中美衝擊加劇而愈演愈烈。數據庫通用領域的相關扶持政策開始更加密集出台。2015年8月,中國國務院發佈《促進大數據發展行動綱要》,從國家大數據發展戰略的高度,提出了中國大數據發展的頂層設計;中國工信部2017年年初發布的《大數據產業發展規劃(2016-2020年)》明確提出了要重視大數據技術與產品的研發、創新應用、培育主體企業、制定標準體系、完善產業體系、提升大數據安全保障能力。
以OceanBase為代表的中國國產數據庫終於迎來「天時地利人和」:宏觀政策的支持、傳統集中式關係數據庫不堪重負觸發行業拐點、中國大數據發展提供的機會和應用場景。
從搭建初期穩定性飽受懷疑連內部都拒絕試用,到2014年「雙11」支付寶將10%的流水交給OceanBase承擔,到2016年「雙11」支付寶整個賬務庫遷移,一個真正的分布式數據庫OceanBase 1.0橫空出世,阿里技術團隊跑了六年的馬拉松後終於看到了第一個里程碑。
2019年10月,OceanBase以兩倍速度打破甲骨文保持9年之久的TPC-C世界紀錄,宣示中國數據庫自研技術走到了全球最前沿,為世界技術升級跨出了關鍵的一步。2020年5月20日,數據庫「世界盃」TPC-C再次公布,OceanBase打破2019年自己保持的世界紀錄,獲得7.07億tpmC的超高性能得分,OceanBase的這一突破將性能將分數從千萬級,提升至億級,較2019年大幅提升11倍。
當然,放在更寬的範圍,OceanBase只是用來表述中國國產數據庫現狀的一個案例,它在最新的一百多款中國國產數據庫流行度排行榜上,甚至只佔據第四名的位置,在它前面還有鑑於行業性和傳播度因素,導致普通人更不瞭解的TiDB、達夢數據庫、GBase(南大通用)。放到更長的時間線裏,老一代的數據庫時代尚未謝幕,新一代的數據庫百家爭鳴已現雛形。一切才剛剛開始,不同的是在新的數據庫「世界大戰」面前,中國已經有了自己的底氣。