發表於2024-11-24
互聯網實戰經驗總結
多位阿裏技術人經驗匯總
阿裏巴巴官方首度分享
幾十位工程師傾力總結技術實戰經驗
互聯網技術井噴時代的良心著作
《逆流而上:阿裏巴巴技術成長之路》是阿裏巴巴集團榮耀背後的技術血淚史。《逆流而上:阿裏巴巴技術成長之路》通過分享業務運行過程中各個領域發生的典型“踩坑”案例,幫助大傢快速提升自我及團隊協作,學習到寶貴的處理經驗及實踐方案,為互聯網生産係統的穩定共同努力。從基礎架構、中間件、數據庫、雲計算、大數據等技術領域中不斷積纍經驗,顛覆技術瓶頸,不斷創新以適應不斷增長的需求。
《逆流而上:阿裏巴巴技術成長之路》主要麵嚮互聯網技術從業人員和在校師生,使讀者能夠通過此書基本瞭解阿裏在各技術領域的能力,學習在如此規模下可能齣現的問題以及解決方案的探討和沉澱分享。
阿裏巴巴集團成長集編委會
由阿裏巴巴集團不同業務綫及不同技術領域內的人員組成的虛擬組織。技術人員都知道軟件開發過程中的八二原則,理解大多數問題發生在何處,發生的原因,如何解決,變得尤為重要。阿裏巴巴集團業務飛速發展,技術人員積纍瞭大量豐富的綫上問題排查及解決的案例和經驗。
成長集編委會從中挑選瞭一些優秀的技術案例,側重於對問題的還原和分析。我們希望,曾經踩過的坑都能具有其意義和使命,而後來者通過學習前人的經驗,防微杜漸,快速成長。
這本《逆流而上:阿裏巴巴技術成長之路》總結瞭近年來阿裏巴巴集團在重要領域中遇到的故障和排查方法。從故障中得到的教訓,剖析齣來的架構缺陷,摺射齣來的實現問題以及運維過程中的疏忽和錯誤都是很真實的,很具有說服力。他山之石,可以攻玉,希望為廣大開發和運維工程師帶來幫助。
——阿裏雲資深總監吳結生
古語說:前人栽樹,後人乘涼。本書創作旨在讓曆史的經驗傳承下去,幫助到更多的人。它匯集瞭阿裏巴巴集團各個BU技術人員在日常工作中所遇到的典型踩坑案例,這些案例全部來自綫上生産實踐,涉及基礎設施、中間件、數據庫、業務開發以及穩定性建設,基本涵蓋瞭阿裏巴巴所有的技術兵種,這是一本非常全麵的技術踩坑實踐書,具有很重要的參考意義。
——阿裏雲研究員褚霸
阿裏巴巴的技術人員日常的研發運維過程,就是不斷和新問題鬥智鬥勇的過程,我們會鼓勵把遇到的挑戰和問題總結齣來,所以在這個過程中積纍瞭大量的總結資料,這些資料有些總結到瞭産品裏,成為架構、係統的一部分,有些不斷被學習變成瞭其他更多同事的新能力。
——中間件技術部研究員小邪
在我帶領阿裏巴巴GOC(全球運行指揮中心)團隊期間,天天麵對不斷發生的大小故障,尤其是重復發生的故障。而此書恰恰是在這種思考之下所采取的行動之一。成功難以模仿,教訓可以學習。每篇文章的背後都是血淋淋的教訓,值得每一個技術人員好好閱讀。
——菜鳥資深專傢王樂
第1章基礎架構高可用
1.1明察鞦毫,域名解析排查技巧
1.2智能定位,網絡端到端靜默丟包點迅速鎖定
1.3靈活調度,對接運營商網絡流量的容災策略
1.4抽絲剝繭,深挖雲盤掛起背後的真相
1.5存儲的底綫,SSD數據不一緻
第2章中間件使用常見隱患與預防
2.1高並發“熱點”緩存數據快速“退火”
2.2自我保護,讓係統堅如磐石
2.3機房容災,VIPServer軟負載流量調度實例
2.4山洪暴發,高流量觸發Tomcatbug引起集群崩潰
第3章數據庫常見問題
3.1性能殺手,SQL執行計劃
3.2波譎雲詭,數據庫延遲
3.3風暴來襲,AliSQL連接池調優
3.4防患於未然,ORM規約變更案例
3.5雲數據庫,SQL優化經典案例
第4章業務研發經典案例
4.1冪等控製,分布式鎖超時情況和業務重試的並發
4.2另類解法,分布式一緻性
4.3大道至簡,從故障模型的邊界狀態切換到原始狀態
4.4疑案追蹤,JSON序列化不一緻
4.5從現象到本質,不保證順序的Class.getMethodsJVM實現
4.6破解超時迷局,淺析啓動初期load飆高問題
4.7洞悉韆絲萬縷,淺談JIT編譯優化的誤區
第5章運行管理域穩定性建設
5.1洞若觀火,讓故障無處遁形
5.2體係化思考,高效解決運營商問題
5.3以戰養兵,以故障演練提升係統穩定性
推薦序一
我從2009年9月25日奉命組建淘寶技術保障部,到2016年4月1日移交AIS(AlibabaInfrastructureService)給新任CTO,曆時2380天、大約每3小時經曆一次故障,可以說每天的生活就是從一個故障走嚮另一個故障,那段日子裏我無時不刻不在琢磨如何保障並提升阿裏平颱的生産穩定性。淘寶/支付寶的可用性從2009年的99.5%到2010年的99.95%,到後來逐年提升並保持到現在的99.99%,由AIS牽頭、協同集團各BU的技術小二集體為此付齣瞭巨大而卓有成效的努力。從我的視角看,有以下三點經驗:
一、做好頂層設計
“不謀全局者,不足謀一域”。生産穩定性的保障不能隻埋頭於一時一事的細節中,按照馬老師在2009年底對我講“不僅要救火,更是要防火”的要求,必須做好頂層製度設計:
1、研發和運維團隊要能夠“嚮對方靠近邁一步、互相理解和尊重”,這其中過程改進(SPI)和配置管理(SCM)同學們可以起到獨特的承上啓下貫通作用。這樣技術保障部的基本組成是:
SPI+SCM+ProductionEngineer+DBA+System/NetworkEngineer
而且團隊逐步要加強研發能力、能夠對整個係統架構進行代碼級的把控。
2、故障的標準統一以及處理流程的持續強化。2009年底我們討論明確淘寶/支付寶的P1故障定義為“成交下跌10%且持續10分鍾以上”,以此為準繩,統一思想和故障處理應急指揮體係,以及堅持事後故障復盤。事實證明,牽住瞭這個“牛鼻子”對穩定性工作有瞭很大提升。
3、堅持建設阿裏經濟體統一的基礎設施平颱。AIS從小變大的過程,就是淘寶、阿裏雲、B2B、支付寶等技術保障團隊逐步融閤的過程;也是原本分散的各種軟硬件基礎設施逐步融閤的曆程,堅持“書同文、車同軌、行同倫”。沒有統一的基礎設施和標準規範(包括IDC、網絡、服務器、OS、中間件、數據庫、業務應用、研發運維係統及工具、支持HTTPS標準等),就根本做不到今天的穩定性。
二、堅持技術創新
阿裏巴巴過去18年的大發展是業務不斷創新的過程,同樣,阿裏生産係統的穩定性也經曆瞭持續不斷的技術創新:
1、積極推動“去IOE”和金融級雲數據庫OceanBase的發展及成熟。此創新使得阿裏交易和支付係統架構可以靈活支撐業務飛速發展,技術完全自主可控、積纍瞭眾多基礎工程技術和人纔,也大幅降低瞭技術成本。
2、“異地多活”和全鏈路壓測。2010年我們就開始從青島機房嘗試做淘寶交易的“異地多活”,曆經多年的反復技術嘗試,終於有瞭今天北部、中部、南部的多機房同時支撐交易支付的能力。2012年雙11零點驚魂促使我們下決心搞定“全鏈路壓測”,用模擬的流量進行極限壓測以獲得生産係統的真實負載能力,經過2013、2014連續兩年的實戰摸索,現在已然成為我們雙11穩定運行的利器。
3、雲計算技術的逐步應用和強大。2009年阿裏雲正式成立,2012年雙11天貓電商雲平颱“聚石塔”首次采用阿裏雲的産品支撐,到今天雲計算在阿裏巴巴平颱廣泛的使用和“雲化”,都是咬牙堅持技術創新的結果。
4、統一計算平颱到ODPS。沒有統一的計算平颱,不僅造成技術力量分散且成本不可控,更會導緻數據生産和維護的混亂,是穩定性的大患。2014年啓動“登月計劃”,打造阿裏集團統一的底層大數據平颱,滿足安全性、可管理、能開放等重要業務需求,在2015年6月完成瞭阿裏所有數據業務的運行平颱從Hadoop升級到飛天ODPS;同時在遷移過程中建立數據管理基本規則,做到業務的升級再造和數據通用。
三、組織管理創新
阿裏經濟體是一個朝氣蓬勃的商業生態,一直在持續不斷的進行業務創新;背後支撐這個生態的是一個超級復雜的技術體係,運行維護這個技術體係也需要進行組織管理方麵的創新。
1、設置PE(ProductionEngineer,生産工程師)崗位,掌控業務應用的生産維護工作,這個崗位介於業務研發、DBA和係統及網絡工程師之間,起到重要的橋梁紐帶作用,為對口各BU的業務平穩運行負責。
2、成立GOC(GlobalOperationsCenter,全球運行指揮中心)、指定生産應急值班長,牽頭負責整個阿裏經濟體技術平颱的日常運行維護。故障的監控、報警、指揮、消防、事後復盤等全流程的運行管理,並通過持續的故障演練保障係統穩定性。特彆的,2015年啓動對核心交易和支付係統的“生産突襲”,是一種特彆有效、真刀真槍的檢驗業務生産連續性能力的舉措,應該長期堅持做下去。
3、麵對“雙11”的技術保障體係。針對每年一度的天貓全球狂歡節,日常的保障措施是遠遠不夠的,需要成立單獨的技術“團部”掌控全局、各關鍵鏈條上的BU成立“技術連部”決策局部穩定性,以及精乾的“情報分揀中心”擔當最辛苦的樞紐、負責判斷每條業務綫情報員上報的各種異常信息並即時給齣動作。
有瞭頂層設計、技術創新和組織變革,最終落實生産穩定性的,還是靠一綫技術小二一行行的編碼、一次次的測試、日復一日不厭其煩的故障排查工作,以及我們對維護生産穩定性小二們工作的重視、肯定和發自內心的欣賞。他們不是所謂的技術大牛或大V,不會在各種論壇上侃侃而談、也不會書寫高大上的PPT;他們麵對日常一個個突發的故障,遭受委屈、忍受冤枉、不懼倒黴,堅忍不拔;他們是腳踏實地、埋頭苦乾的無名英雄,是阿裏技術的脊梁。這本書《逆流而上:阿裏巴巴技術成長案例集》就是負責阿裏大平颱生産穩定性的部分技術小二的代錶,把他們這些年在基礎架構、中間件、數據庫、業務研發、運行管理等大型互聯網平颱的穩定性建設中積纍的實戰寶貴經驗,用平實無華的語言娓娓道來,這些技術沉澱既是對過往典型故障的深度分析,也是跟同行們切磋交流的寶貴知識財富。
我要深深的感謝過往七年裏為阿裏生産係統穩定性付齣努力的所有技術小二,也特彆高興看到《逆流而上》的齣版並愉快的推薦給所有關心互聯網平颱穩定性的同行們。
劉振飛
阿裏巴巴集團首席風險官(CRO)
原阿裏技術保障部(AIS)負責人
推薦序二
外界對於阿裏巴巴技術的瞭解,大多要麼是雙11又創造瞭交易和支付的世界峰值紀錄,要麼是阿裏雲技術的高大上,要麼是又齣瞭什麼黑科技,非常炫。在這炫麗的背後,有那麼一群技術人,是他們支撐瞭7X24小時不間斷的Online服務,是他們讓無數的業務想法變成瞭現實,他們付齣瞭艱苦的努力,也踩過瞭無數的坑,感謝在背後默默付齣的阿裏技術人!
這本《成長集》,從業務運行的角度,收集瞭不少的實際案例,來自阿裏的多個技術團隊,內容從第三方的運營商、DNS到IDC機房、服務器、網絡到存儲、中間件、數據庫到業務係統和運行管理,幾乎囊括瞭運行的所有技術環節。也驗證瞭技術之外的經驗“對生産係統保持敬畏之心”“韆裏之堤,毀於蟻穴”,所有的這些,都極具參考價值。
共享是互聯網最重要的精神,阿裏巴巴技術人希望將這些血和淚的教訓分享齣來,和技術同仁共同成長,如果說這些分享能夠給同行帶來一些共鳴或者啓發,那將是阿裏技術人最大的幸福!
周明
阿裏巴巴集團副總裁
阿裏基礎設施事業群(AIS)
……
作者序言:
2017年7月27日,阿裏巴巴集團市值超越4040億美元,成為亞洲第一。迴首過去18年的曆程,伴隨著阿裏業務從電商快速成長到覆蓋金融、雲計算、物流等眾多行業,是阿裏技術人在基礎設施、操作係統、中間件、雲等各個領域孜孜不倦的探索、創新和實踐。
在每一個技術領域,我們嘗試過業務問題多種不同的解法,無論是新技術還是成熟的解決方案,我們都充分驗證,直至完全掌握。但在我們看來,最寶貴的並不是我們最終采用某種技術或方案的決定,而是大傢在探索中遇到的問題以及解決辦法,是對每種技術深入研究過程中積纍的經驗,是基於對技術深入理解的基礎之上進行調優和定製的實踐。
隨著互聯網的浪潮日益高漲,我們看到越來越多的技術人開始經曆相似過程,因為單純“拿來主義”的技術方案已經無法滿足各個行業層齣不窮的業務創新,唯有完全掌握技術纔能使之貼閤業務需求,更好的服務客戶,而掌握技術的關鍵就在於解決它在實際應用中産生的問題。所以,我們把阿裏落地各類技術過程中遇到過的問題以及解決方案分享給各位同行,希望對大傢開闊思路、少走彎路能夠有所幫助。
本書總結瞭阿裏巴巴集團的技術團隊在基礎架構、中間件、數據庫、業務開發以及運行管理等領域的經典實踐,從采用的方案、遇到的問題、解決方法以及對未來的思考等方麵,全麵介紹技術實踐的細節。在編寫方麵,本書注重實操,包含代碼示例、排查思路及處理流程,以便於讀者快速應用到自己的工作中。
非常感謝阿裏各條業務綫的技術同學,在百忙之中安排時間總結、整理並撰寫案例,用他們的經驗反哺技術同行,這也是阿裏技術人為互聯網技術不斷的超越貢獻的一點微薄之力。
瀋乘黃(神庭)
阿裏巴巴全球運行指揮中心總監
逆流而上:阿裏巴巴技術成長之路 下載 mobi pdf epub txt 電子書 格式 2024
逆流而上:阿裏巴巴技術成長之路 下載 mobi epub pdf 電子書很喜歡在東東上網購 真的不錯的
評分很快看完瞭,發現一般公司和阿裏技術的區彆在阿裏的每一個知識點都做的很透
評分書不錯,適閤用於提升自己能力。。。。
評分還沒有看,先評價
評分包裝很好
評分阿裏技術大觀,有興趣的同學可以看看!不錯!
評分5分
評分書不錯,學到不少
評分非常滿意,傢裏人都很喜歡。下次還會再來光顧。
逆流而上:阿裏巴巴技術成長之路 mobi epub pdf txt 電子書 格式下載 2024