互联网实战经验总结
  多位阿里技术人经验汇总
  阿里巴巴官方首度分享
  几十位工程师倾力总结技术实战经验
  互联网技术井喷时代的良心著作
  
  《逆流而上:阿里巴巴技术成长之路》是阿里巴巴集团荣耀背后的技术血泪史。《逆流而上:阿里巴巴技术成长之路》通过分享业务运行过程中各个领域发生的典型“踩坑”案例,帮助大家快速提升自我及团队协作,学习到宝贵的处理经验及实践方案,为互联网生产系统的稳定共同努力。从基础架构、中间件、数据库、云计算、大数据等技术领域中不断积累经验,颠覆技术瓶颈,不断创新以适应不断增长的需求。
  《逆流而上:阿里巴巴技术成长之路》主要面向互联网技术从业人员和在校师生,使读者能够通过此书基本了解阿里在各技术领域的能力,学习在如此规模下可能出现的问题以及解决方案的探讨和沉淀分享。
  
  
  阿里巴巴集团成长集编委会
  由阿里巴巴集团不同业务线及不同技术领域内的人员组成的虚拟组织。技术人员都知道软件开发过程中的八二原则,理解大多数问题发生在何处,发生的原因,如何解决,变得尤为重要。阿里巴巴集团业务飞速发展,技术人员积累了大量丰富的线上问题排查及解决的案例和经验。
  成长集编委会从中挑选了一些优秀的技术案例,侧重于对问题的还原和分析。我们希望,曾经踩过的坑都能具有其意义和使命,而后来者通过学习前人的经验,防微杜渐,快速成长。
  这本《逆流而上:阿里巴巴技术成长之路》总结了近年来阿里巴巴集团在重要领域中遇到的故障和排查方法。从故障中得到的教训,剖析出来的架构缺陷,折射出来的实现问题以及运维过程中的疏忽和错误都是很真实的,很具有说服力。他山之石,可以攻玉,希望为广大开发和运维工程师带来帮助。
  ——阿里云资深总监吴结生
  古语说:前人栽树,后人乘凉。本书创作旨在让历史的经验传承下去,帮助到更多的人。它汇集了阿里巴巴集团各个BU技术人员在日常工作中所遇到的典型踩坑案例,这些案例全部来自线上生产实践,涉及基础设施、中间件、数据库、业务开发以及稳定性建设,基本涵盖了阿里巴巴所有的技术兵种,这是一本非常全面的技术踩坑实践书,具有很重要的参考意义。
  ——阿里云研究员褚霸
  阿里巴巴的技术人员日常的研发运维过程,就是不断和新问题斗智斗勇的过程,我们会鼓励把遇到的挑战和问题总结出来,所以在这个过程中积累了大量的总结资料,这些资料有些总结到了产品里,成为架构、系统的一部分,有些不断被学习变成了其他更多同事的新能力。
  ——中间件技术部研究员小邪
  在我带领阿里巴巴GOC(全球运行指挥中心)团队期间,天天面对不断发生的大小故障,尤其是重复发生的故障。而此书恰恰是在这种思考之下所采取的行动之一。成功难以模仿,教训可以学习。每篇文章的背后都是血淋淋的教训,值得每一个技术人员好好阅读。
  ——菜鸟资深专家王乐
  
第1章基础架构高可用
1.1明察秋毫,域名解析排查技巧
1.2智能定位,网络端到端静默丢包点迅速锁定
1.3灵活调度,对接运营商网络流量的容灾策略
1.4抽丝剥茧,深挖云盘挂起背后的真相
1.5存储的底线,SSD数据不一致
第2章中间件使用常见隐患与预防
2.1高并发“热点”缓存数据快速“退火”
2.2自我保护,让系统坚如磐石
2.3机房容灾,VIPServer软负载流量调度实例
2.4山洪暴发,高流量触发Tomcatbug引起集群崩溃
第3章数据库常见问题
3.1性能杀手,SQL执行计划
3.2波谲云诡,数据库延迟
3.3风暴来袭,AliSQL连接池调优
3.4防患于未然,ORM规约变更案例
3.5云数据库,SQL优化经典案例
第4章业务研发经典案例
4.1幂等控制,分布式锁超时情况和业务重试的并发
4.2另类解法,分布式一致性
4.3大道至简,从故障模型的边界状态切换到原始状态
4.4疑案追踪,JSON序列化不一致
4.5从现象到本质,不保证顺序的Class.getMethodsJVM实现
4.6破解超时迷局,浅析启动初期load飙高问题
4.7洞悉千丝万缕,浅谈JIT编译优化的误区
第5章运行管理域稳定性建设
5.1洞若观火,让故障无处遁形
5.2体系化思考,高效解决运营商问题
5.3以战养兵,以故障演练提升系统稳定性
  推荐序一
  我从2009年9月25日奉命组建淘宝技术保障部,到2016年4月1日移交AIS(AlibabaInfrastructureService)给新任CTO,历时2380天、大约每3小时经历一次故障,可以说每天的生活就是从一个故障走向另一个故障,那段日子里我无时不刻不在琢磨如何保障并提升阿里平台的生产稳定性。淘宝/支付宝的可用性从2009年的99.5%到2010年的99.95%,到后来逐年提升并保持到现在的99.99%,由AIS牵头、协同集团各BU的技术小二集体为此付出了巨大而卓有成效的努力。从我的视角看,有以下三点经验:
  一、做好顶层设计
  “不谋全局者,不足谋一域”。生产稳定性的保障不能只埋头于一时一事的细节中,按照马老师在2009年底对我讲“不仅要救火,更是要防火”的要求,必须做好顶层制度设计:
  1、研发和运维团队要能够“向对方靠近迈一步、互相理解和尊重”,这其中过程改进(SPI)和配置管理(SCM)同学们可以起到独特的承上启下贯通作用。这样技术保障部的基本组成是:
  SPI+SCM+ProductionEngineer+DBA+System/NetworkEngineer
  而且团队逐步要加强研发能力、能够对整个系统架构进行代码级的把控。
  2、故障的标准统一以及处理流程的持续强化。2009年底我们讨论明确淘宝/支付宝的P1故障定义为“成交下跌10%且持续10分钟以上”,以此为准绳,统一思想和故障处理应急指挥体系,以及坚持事后故障复盘。事实证明,牵住了这个“牛鼻子”对稳定性工作有了很大提升。
  3、坚持建设阿里经济体统一的基础设施平台。AIS从小变大的过程,就是淘宝、阿里云、B2B、支付宝等技术保障团队逐步融合的过程;也是原本分散的各种软硬件基础设施逐步融合的历程,坚持“书同文、车同轨、行同伦”。没有统一的基础设施和标准规范(包括IDC、网络、服务器、OS、中间件、数据库、业务应用、研发运维系统及工具、支持HTTPS标准等),就根本做不到今天的稳定性。
  二、坚持技术创新
  阿里巴巴过去18年的大发展是业务不断创新的过程,同样,阿里生产系统的稳定性也经历了持续不断的技术创新:
  1、积极推动“去IOE”和金融级云数据库OceanBase的发展及成熟。此创新使得阿里交易和支付系统架构可以灵活支撑业务飞速发展,技术完全自主可控、积累了众多基础工程技术和人才,也大幅降低了技术成本。
  2、“异地多活”和全链路压测。2010年我们就开始从青岛机房尝试做淘宝交易的“异地多活”,历经多年的反复技术尝试,终于有了今天北部、中部、南部的多机房同时支撑交易支付的能力。2012年双11零点惊魂促使我们下决心搞定“全链路压测”,用模拟的流量进行极限压测以获得生产系统的真实负载能力,经过2013、2014连续两年的实战摸索,现在已然成为我们双11稳定运行的利器。
  3、云计算技术的逐步应用和强大。2009年阿里云正式成立,2012年双11天猫电商云平台“聚石塔”首次采用阿里云的产品支撑,到今天云计算在阿里巴巴平台广泛的使用和“云化”,都是咬牙坚持技术创新的结果。
  4、统一计算平台到ODPS。没有统一的计算平台,不仅造成技术力量分散且成本不可控,更会导致数据生产和维护的混乱,是稳定性的大患。2014年启动“登月计划”,打造阿里集团统一的底层大数据平台,满足安全性、可管理、能开放等重要业务需求,在2015年6月完成了阿里所有数据业务的运行平台从Hadoop升级到飞天ODPS;同时在迁移过程中建立数据管理基本规则,做到业务的升级再造和数据通用。
  三、组织管理创新
  阿里经济体是一个朝气蓬勃的商业生态,一直在持续不断的进行业务创新;背后支撑这个生态的是一个超级复杂的技术体系,运行维护这个技术体系也需要进行组织管理方面的创新。
  1、设置PE(ProductionEngineer,生产工程师)岗位,掌控业务应用的生产维护工作,这个岗位介于业务研发、DBA和系统及网络工程师之间,起到重要的桥梁纽带作用,为对口各BU的业务平稳运行负责。
  2、成立GOC(GlobalOperationsCenter,全球运行指挥中心)、指定生产应急值班长,牵头负责整个阿里经济体技术平台的日常运行维护。故障的监控、报警、指挥、消防、事后复盘等全流程的运行管理,并通过持续的故障演练保障系统稳定性。特别的,2015年启动对核心交易和支付系统的“生产突袭”,是一种特别有效、真刀真枪的检验业务生产连续性能力的举措,应该长期坚持做下去。
  3、面对“双11”的技术保障体系。针对每年一度的天猫全球狂欢节,日常的保障措施是远远不够的,需要成立单独的技术“团部”掌控全局、各关键链条上的BU成立“技术连部”决策局部稳定性,以及精干的“情报分拣中心”担当最辛苦的枢纽、负责判断每条业务线情报员上报的各种异常信息并即时给出动作。
  有了顶层设计、技术创新和组织变革,最终落实生产稳定性的,还是靠一线技术小二一行行的编码、一次次的测试、日复一日不厌其烦的故障排查工作,以及我们对维护生产稳定性小二们工作的重视、肯定和发自内心的欣赏。他们不是所谓的技术大牛或大V,不会在各种论坛上侃侃而谈、也不会书写高大上的PPT;他们面对日常一个个突发的故障,遭受委屈、忍受冤枉、不惧倒霉,坚忍不拔;他们是脚踏实地、埋头苦干的无名英雄,是阿里技术的脊梁。这本书《逆流而上:阿里巴巴技术成长案例集》就是负责阿里大平台生产稳定性的部分技术小二的代表,把他们这些年在基础架构、中间件、数据库、业务研发、运行管理等大型互联网平台的稳定性建设中积累的实战宝贵经验,用平实无华的语言娓娓道来,这些技术沉淀既是对过往典型故障的深度分析,也是跟同行们切磋交流的宝贵知识财富。
  我要深深的感谢过往七年里为阿里生产系统稳定性付出努力的所有技术小二,也特别高兴看到《逆流而上》的出版并愉快的推荐给所有关心互联网平台稳定性的同行们。
  刘振飞
  阿里巴巴集团首席风险官(CRO)
  原阿里技术保障部(AIS)负责人
  推荐序二
  外界对于阿里巴巴技术的了解,大多要么是双11又创造了交易和支付的世界峰值纪录,要么是阿里云技术的高大上,要么是又出了什么黑科技,非常炫。在这炫丽的背后,有那么一群技术人,是他们支撑了7X24小时不间断的Online服务,是他们让无数的业务想法变成了现实,他们付出了艰苦的努力,也踩过了无数的坑,感谢在背后默默付出的阿里技术人!
  这本《成长集》,从业务运行的角度,收集了不少的实际案例,来自阿里的多个技术团队,内容从第三方的运营商、DNS到IDC机房、服务器、网络到存储、中间件、数据库到业务系统和运行管理,几乎囊括了运行的所有技术环节。也验证了技术之外的经验“对生产系统保持敬畏之心”“千里之堤,毁于蚁穴”,所有的这些,都极具参考价值。
  共享是互联网最重要的精神,阿里巴巴技术人希望将这些血和泪的教训分享出来,和技术同仁共同成长,如果说这些分享能够给同行带来一些共鸣或者启发,那将是阿里技术人最大的幸福!
  周明
  阿里巴巴集团副总裁
  阿里基础设施事业群(AIS)
  ……
   作者序言:
  2017年7月27日,阿里巴巴集团市值超越4040亿美元,成为亚洲第一。回首过去18年的历程,伴随着阿里业务从电商快速成长到覆盖金融、云计算、物流等众多行业,是阿里技术人在基础设施、操作系统、中间件、云等各个领域孜孜不倦的探索、创新和实践。
  在每一个技术领域,我们尝试过业务问题多种不同的解法,无论是新技术还是成熟的解决方案,我们都充分验证,直至完全掌握。但在我们看来,最宝贵的并不是我们最终采用某种技术或方案的决定,而是大家在探索中遇到的问题以及解决办法,是对每种技术深入研究过程中积累的经验,是基于对技术深入理解的基础之上进行调优和定制的实践。
  随着互联网的浪潮日益高涨,我们看到越来越多的技术人开始经历相似过程,因为单纯“拿来主义”的技术方案已经无法满足各个行业层出不穷的业务创新,唯有完全掌握技术才能使之贴合业务需求,更好的服务客户,而掌握技术的关键就在于解决它在实际应用中产生的问题。所以,我们把阿里落地各类技术过程中遇到过的问题以及解决方案分享给各位同行,希望对大家开阔思路、少走弯路能够有所帮助。
  本书总结了阿里巴巴集团的技术团队在基础架构、中间件、数据库、业务开发以及运行管理等领域的经典实践,从采用的方案、遇到的问题、解决方法以及对未来的思考等方面,全面介绍技术实践的细节。在编写方面,本书注重实操,包含代码示例、排查思路及处理流程,以便于读者快速应用到自己的工作中。
  非常感谢阿里各条业务线的技术同学,在百忙之中安排时间总结、整理并撰写案例,用他们的经验反哺技术同行,这也是阿里技术人为互联网技术不断的超越贡献的一点微薄之力。
  沈乘黄(神庭)
  阿里巴巴全球运行指挥中心总监
听朋友提起过这本书,虽然我本人并非直接从事技术工作,但对阿里这家公司的发展史一直充满敬意。它所代表的,不仅仅是中国互联网的崛起,更是中国企业在市场竞争中不断创新、突破自我的精神。我对于“逆流而上”这个词尤其有感触,它暗示了阿里在发展过程中必然经历了诸多艰难险阻,尤其是在技术领域,很可能是在当时技术尚未成熟、人才储备不足的情况下,通过不懈的探索和努力,才最终站稳脚跟并走向卓越。这本书,我想象它会讲述一群有梦想、有才华的技术人在极其有限的条件下,如何用智慧和汗水,一点点打磨出支撑阿里商业版图的技术基石。我非常期待看到一些关于早期技术选型、技术难题攻关、以及如何在快速扩张中保证技术质量的故事。或许里面会有一些关于技术团队文化建设、人才培养和激励机制的探讨,这些对于任何一个希望打造优秀团队的企业都具有重要的参考价值。这本书,对我而言,更多的是关于一种精神的传承,一种面对挑战、永不言弃的奋斗史。
评分《逆流而上:阿里巴巴技术成长之路》这本书,虽然我还没来得及细读,但仅从书名和豆瓣上的评分来看,就足以让我充满期待。我一直对阿里这家公司抱有极大的好奇,它从一个不起眼的小团队,成长为如今影响全球的科技巨头,这中间一定隐藏着无数跌宕起伏的故事和宝贵的经验。特别是“技术成长之路”这几个字,更是精准地戳中了我的痛点。作为一名在技术领域摸爬滚打多年的普通从业者,我深知技术能力的提升并非易事,它需要持续的学习、不断的实践,以及在面对困难和挫折时咬牙坚持的毅力。我非常想知道,在阿里这样高压、快节奏的环境下,他们的技术人员是如何保持学习的热情,又是如何一步步突破瓶颈,最终构建起支撑整个庞大生态系统的技术壁垒的。这本书,我预感它不仅仅是关于阿里巴巴一家公司的故事,更是对所有渴望在技术领域有所建树的个人的一次心灵指引和实操指南。我迫不及待地想翻开它,去探索那些关于技术演进、架构升级、团队协作以及在巨头崛起过程中所必须克服的重重挑战的细节。我相信,这本书的内容定能为我带来启发,让我对自己的技术之路有更清晰的认识和更坚定的方向。
评分我最近刚好在关注企业数字化转型这个话题,而阿里巴巴无疑是这个领域的先行者和领跑者。从最早的B2B电商,到如今涵盖云计算、金融科技、新零售、物流、文娱等各个领域的庞大帝国,阿里背后强大的技术驱动力毋庸置疑。我特别好奇的是,在快速变化的市场和用户需求下,阿里是如何保持其技术体系的敏捷性和可扩展性的?他们是如何在海量的数据和用户面前,构建出稳定、高效、安全的系统?《逆流而上:阿里巴巴技术成长之路》这个书名,让我联想到许多阿里在发展过程中遇到的技术难题,比如早期的双十一洪峰如何应对,如何从技术上支撑数亿用户的并发访问,以及如何在不同业务线之间实现技术的复用和协同。我相信这本书不会仅仅停留在对技术概念的罗列,而是会深入到阿里在解决这些实际问题时的思考过程、决策机制以及付出的努力。我期待能从中学习到关于大型分布式系统设计、海量数据处理、高可用架构以及如何构建持续交付能力等方面的实战经验。对于想要在技术领域有所建树,尤其是对大型互联网企业技术架构感兴趣的读者来说,这本书无疑提供了一个绝佳的学习平台。
评分作为一个对互联网公司技术演进史颇感兴趣的读者,我一直密切关注着像阿里巴巴这样的头部企业是如何一步步建立起自己的技术护城河的。《逆流而上:阿里巴巴技术成长之路》这个名字,瞬间就抓住了我的眼球,因为它不仅点出了公司名称,更描绘了其发展过程中所蕴含的艰辛与成长。我个人非常好奇的是,在那个互联网技术飞速发展的年代,阿里是如何在众多竞争者中脱颖而出,并始终保持技术领先的?它是否经历过技术上的重大转折点?例如,从最初的PHP技术栈,到后来拥抱Java、Go等语言,再到如今在微服务、云计算、大数据等领域的深入布局,这些技术栈的演进背后一定有着深刻的战略考量和技术决策。我希望这本书能够详细阐述阿里在技术选型、架构设计、工程实践等方面的演变历程,以及在面临技术瓶颈或行业变革时,是如何通过创新和自我革新来应对的。这本书,我期待它能成为我理解大型互联网技术体系演进的一个生动案例,从中学习到如何在动态变化的技术环境中,做出明智的技术决策,并构建出具备强大生命力的技术架构。
评分在如今这个信息爆炸的时代,想要在浩瀚的书海中找到一本真正有价值、能带来深刻启发的书并非易事。而《逆流而上:阿里巴巴技术成长之路》这本书,光听书名,就让我感受到了其中蕴含的强大生命力和奋斗精神。我脑海中浮现的是,在那个中国互联网产业尚处于萌芽阶段,技术基础相对薄弱的环境下,一群怀揣梦想的年轻人,是如何凭借着对技术的热情和对未来的信念,一步步攻克难关,将一个个不可能变成可能的。我特别想知道,阿里在早期是如何吸引和留住那些顶尖的技术人才的?在面对技术上的空白和挑战时,他们是如何通过团队协作和知识共享来解决问题的?这本书,我预感它会讲述许多不为人知的故事,关于技术人员的牺牲与奉献,关于团队的磨合与成长,以及在激烈的市场竞争中,技术是如何成为驱动企业发展的核心引擎的。我期待从中汲取养分,学习到如何在个人技术成长和团队协作中找到平衡点,并在职业生涯中不断“逆流而上”,实现自己的价值。
评分东西还不错,很满意。希望以后多搞活动。
评分不错不错,送货非常快!!!!!
评分书写的还凑合,值得推荐。
评分讲了常用的问题和解决办法,有利于思路的扩展
评分真的很不错啊啊啊
评分请至少填写一件商品的评价
评分《逆流而上:阿里巴巴技术成长之路》主要面向互联网技术从业人员和在校师生,使读者能够通过此书基本了解阿里在各技术领域的能力,学习在如此规模下可能出现的问题以及解决方案的探讨和沉淀分享。
评分看个热闹
评分很好的书,可惜目前和我不太匹配
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有