- 作者一直奋战在阿里巴巴及淘宝网一线,书中所讲是其亲身经验的总结,显得更加实战和珍贵。
- 全面介绍大型分布式网站架构所涉及的技术细节,通过很多实践案例尽量让每一个关键的技术点都落到实处。
- 深入讲述大型分布式网站架构设计的核心原理,分享大型分布式网站设计的一些常见场景及遇到的问题。
海报:
《大型分布式网站架构设计与实践》主要介绍了大型分布式网站架构所涉及的一些技术细节,包括SOA架构的实现、互联网安全架构、构建分布式网站所依赖的基础设施、系统稳定性保障和海量数据分析等内容;深入地讲述了大型分布式网站架构设计的核心原理,并通过一些架构设计的典型案例,帮助读者了解大型分布式网站设计的一些常见场景及遇到的问题。
作者结合自己在阿里巴巴及淘宝网的实际工作经历展开论述。本书既可供初学者学习,帮助读者了解大型分布式网站的架构,以及解决问题的思路和方法,也可供业界同行参考,给日常工作带来启发。
陈康贤,淘宝网工程师,大学毕业后一直在阿里巴巴集团从事软件研发工作,擅长javaweb程序设计,长期在淘宝分布式环境下耳濡目染,目前关注于Java高性能程序设计及性能优化。
——聚划算技术部高级技术专家 刘国华(索尼)
★当下有规模的网站,都采用分布式的架构实现。那么网站如何做到分布式,以及有哪些基础的分布式系统,都是我们的架构师和开发人员想去了解的,而相关的安全问题,以及稳定性、性能、应用的线上问题定位分析等方面的问题也很重要,本书能够比较全面地给读者带来这些相关知识的一个全貌,能够让从业人员对于这些知识有一个比较全面的了解。而康贤也是一个一直奋战在一线的技术人员,亲身经历的总结会显得更加实战和珍贵。
——淘宝技术部总监 曾宪杰(华黎)
第1章 面向服务的体系架构(SOA)
本章主要介绍和解决以下问题,这些也是全书的基础:
HTTP协议的工作方式与HTTP网络协议栈的结构。
如何实现基于HTTP协议和TCP协议的RPC调用,它们之间有何差别,分别适应何种场景。
如何实现服务的动态注册和路由,以及软负载均衡的实现。
1.1 基于TCP协议的RPC
1.1.1 RPC名词解释
1.1.2 对象的序列化
1.1.3 基于TCP协议实现RPC
1.2 基于HTTP协议的RPC
1.2.1 HTTP协议栈
1.2.2 HTTP请求与响应
1.2.3 通过HttpClient发送HTTP请求
1.2.4 使用HTTP协议的优势
1.2.5 JSON和XML
1.2.6 RESTful和RPC
1.2.7 基于HTTP协议的RPC的实现
1.3 服务的路由和负载均衡
1.3.1 服务化的演变
1.3.2 负载均衡算法
1.3.3 动态配置规则
1.3.4 ZooKeeper介绍与环境搭建
1.3.5 ZooKeeper API使用简介
1.3.6 zkClient的使用
1.3.7 路由和负载均衡的实现
1.4 HTTP服务网关
第2章 分布式系统基础设施
本章主要介绍和解决如下问题:
分布式缓存memcache的使用及分布式策略,包括Hash算法的选择。
常见的分布式系统存储解决方案,包括MySQL的分布式扩展、HBase的API及使用场景、Redis的使用等。
如何使用分布式消息系统ActiveMQ来降低系统之间的耦合度,以及进行应用间的通信。
垂直化的搜索引擎在分布式系统中的使用,包括搜索引擎的基本原理、Lucene详细的使用介绍,以及基于Lucene的开源搜索引擎工具Solr的使用。
2.1 分布式缓存
2.1.1 memcache简介及安装
2.1.2 memcache API与分布式
2.1.3 分布式session
2.2 持久化存储
2.2.1 MySQL扩展
2.2.2 HBase
2.2.3 Redis
2.3 消息系统
2.3.1 ActiveMQ & JMS
2.4 垂直化搜索引擎
2.4.1 Lucene简介
2.4.2 Lucene的使用
2.4.3 Solr
2.5 其他基础设施
第3章 互联网安全架构
本章主要介绍和解决如下问题:
常见的Web攻击手段和防御方法,如XSS、CRSF、SQL注入等。
常见的一些安全算法,如数字摘要、对称加密、非对称加密、数字签名、数字证书等。
如何采用摘要认证方式防止信息篡改、通过数字签名验证通信双方的合法性,以及通过HTTPS协议保障通信过程中数据不被第三方监听和截获。
在开放平台体系下,OAuth协议如何保障ISV对数据的访问是经过授权的合法行为。
3.1 常见的Web攻击手段
3.1.1 XSS攻击
3.1.2 CRSF攻击
3.1.3 SQL注入攻击
3.1.4 文件上传漏洞
3.1.5 DDoS攻击
3.1.6 其他攻击手段
3.2 常用的安全算法
3.2.1 数字摘要
3.2.2 对称加密算法
3.2.3 非对称加密算法
3.2.4 数字签名
3.2.5 数字证书
3.3 摘要认证
3.3.1 为什么需要认证
3.3.2 摘要认证的原理
3.3.3 摘要认证的实现
3.4 签名认证
3.4.1 签名认证的原理
3.4.2 签名认证的实现
3.5 HTTPS协议
3.5.1 HTTPS协议原理
3.5.2 SSL/TLS
3.5.3 部署HTTPS Web
3.6 OAuth协议
3.6.1 OAuth的介绍
3.6.2 OAuth授权过程
第4章 系统稳定性
本章主要介绍和解决如下问题:
常用的在线日志分析命令的使用和日志分析脚本的编写,如cat、grep、wc、less等命令的使用,以及awk、shell脚本的编写。
如何进行集群的监控,包括监控指标的定义、心跳检测、容量评估等。
如何保障高并发系统的稳定运行,如采用流量控制、依赖管理、服务分级、开关等策略,以及介绍如何设计高并发系统。
如何优化应用的性能,包括前端优化、Java程序优化、数据库查询优化等。
如何进行Java应用故障的在线排查,包括一系列排查工具的使用,以及一些实际案例的介绍等。
4.1 在线日志分析
4.1.1 日志分析常用命令
4.1.2 日志分析脚本
4.2 集群监控
4.2.1 监控指标
4.2.2 心跳检测
4.2.3 容量评估及应用水位
4.3 流量控制
4.3.1 流量控制实施
4.3.2 服务稳定性
4.3.3 高并发系统设计
4.4 性能优化
4.4.1 如何寻找性能瓶颈
4.4.2 性能测试工具
4.4.3 性能优化措施
4.5 Java应用故障的排查
4.5.1 常用的工具
4.5.2 典型案例分析
第5章 数据分析
本章主要介绍和解决如下问题:
分布式系统中日志收集系统的架构。
如何通过Storm进行实时的流式数据分析。
如何通过Hadoop进行离线数据分析,通过Hive建立数据仓库。
如何将关系型数据库中存储的数据导入HDFS,以及从HDFS中将数据导入关系型数据库。
如何将分析好的数据通过图形展示给用户。
5.1 日志收集
5.1.1 inotify机制
5.1.2 ActiveMQ-CPP
5.1.3 架构和存储
5.1.4 Chukwa
5.2 离线数据分析
5.2.1 Hadoop项目简介
5.2.2 Hadoop环境搭建
5.2.3 MapReduce编写
5.2.4 Hive使用
5.3 流式数据分析
5.3.1 Storm的介绍
5.3.2 安装部署Storm
5.3.3 Storm的使用
5.4 数据同步
5.4.1 离线数据同步
5.4.2 实时数据同步
5.5 数据报表
5.5.1 数据报表能提供什么
5.5.2 报表工具Highcharts
参考文献
2.1.3 分布式session
传统的应用服务器,如tomcat、jboss等,其自身所实现的session管理大部分都是基于单机的。对于大型分布式网站来说,支撑其业务的远远不止一台服务器,而是一个分布式集群,请求在不同服务器之间跳转。那么,如何保持服务器之间的session同步呢?传统网站一般通过将一部分数据存储在cookie中,来规避分布式环境下session的操作。这样做的弊端很多,一方面cookie的安全性一直广为诟病,另一方面cookie存储数据的大小是有限制的。随着移动互联网的发展,很多情况下还得兼顾移动端的session需求,使得采用cookie来进行session同步的方式的弊端更为凸显。分布式session正是在这种情况下应运而生的。
对于系统可靠性要求较高的用户,可以将session持久化到DB中,这样可以保证宕机时会话不易丢失,但缺点也是显而易见的,系统的整体吞吐将受到很大的影响。另一种解决方案便是将session统一存储在缓存集群上,如memcache,这样可以保证较高的读、写性能,这一点对于并发量大的系统来说非常重要;并且从安全性考虑,session毕竟是有有效期的,使用缓存存储,也便于利用缓存的失效机制。使用缓存的缺点是,一旦缓存重启,里面保存的会话也就丢失了,需要用户重新建立会话。
前端用户请求经过随机分发之后,可能会命中后端任意的Web Server,并且Web Server也可能会因为各种不确定的原因宕机。在这种情况下,session是很难在集群间同步的,而通过将session以sessionid作为key,保存到后端的缓存集群中,使得不管请求如何分配,即便是Web Server宕机,也不会影响其他Web Server通过sessionid从Cache Server中获得session,这样既实现了集群间的session同步,又提高了Web Server的容错性。
这里以Tomcat作为Web Server来举例,通过一个简单的工具memcached-session- manager ,实现基于memcache的分布式session。
memcached-session-manager是一个开源的高可用的Tomcat session共享解决方案,它支持Sticky模式和Non-Sticky模式。Sticky模式表示每次请求都会被映射到同一台后端Web Server,直到该Web Server宕机,这样session可先存放在服务器本地,等到请求处理完成再同步到后端memcache服务器;而当Web Server宕机时,请求被映射到其他Web Server,这时候,其他Web Server可以从后端memcache中恢复session。对于Non-Sticky模式来说,请求每次映射的后端Web Server是不确定的,当请求到来时,从memcache中加载session;当请求处理完成时,将session再写回到memcache。
以Non-Sticky模式为例它需要给Tomcat的$CATALINA_HOME/conf/context.xml文件配置SessionManager,具体配置如下:
sticky="false"
sessionBackupAsync="false"
lockingMode="auto"
requestUriIgnorePattern=".*.(ico|png|gif|jpg|css|js)$"
transcoderFactoryClass="de.javakaffee.web.msm.serializer.kryo.KryoTranscoderFactory"
/>
其中:memcachedNodes指定了memcache的节点;sticky表示是否采用Sticky模式;sessionBackupAsync表示是否采用异步方式备份session;lockingMode表示session的锁定模式;auto表示对于只读请求,session将不会被锁定,如果包含写入请求,则session会被锁定;requestUriIgnorePattern表示忽略的url;transcoderFactoryClass用来指定序列化的方式,这里采用的是Kryo序列化,也是memcached-session-manager比较推荐的一种序列化方式。
memcached-session-manager依赖于memcached-session-manager-${version}.jar,如果使用的是tomcat6,则还需要下载memcached-session-manager-tc6-${version}.jar,并且它还依赖memcached- ${version}.jar进行memcache的访问。在启动Tomcat之前,需要将这些jar放在$CATALINA_ HOME/lib/目录下。如果使用第三方序列化方式,如Kryo,还需要在Web工程中引入相关的第三方库,Kryo序列化所依赖的库,包括kryo-${version}-all.jar、kryo-serializers-${version}.jar和msm-kryo-serializer. ${version}.jar。
……
这本书的文字风格非常严谨,每一句话都充满了技术术语,对于非资深技术人员来说,阅读起来会有些吃力。我尝试着去理解书中关于“一致性哈希算法在分布式缓存中的应用”部分,但缺乏直观的图示和生活化的比喻,使得抽象的概念难以在脑海中形成清晰的图像。此外,书中对“CAP理论”的阐述,更多的是将其作为一个已有的定理来介绍,而未能深入剖析其在实际分布式系统设计中,不同场景下的权衡取舍。例如,在金融支付领域,强调一致性可能是首要任务,而在社交媒体的“点赞”功能中,可用性可能更为重要。书中对于这些具体业务场景的考量,以及由此引发的架构设计差异,描述得不够详尽,更多的是一种理论上的堆砌。我希望能看到更多将理论与实践相结合的案例,让读者能够更清晰地理解这些理论如何在真实的系统中落地,并解决实际问题。
评分这本书的封面设计简洁大气,但内容似乎更多地聚焦于底层技术细节,而非宏观的架构理念。我原以为它会深入探讨在不同业务场景下,如何权衡各种技术选型,例如在用户量爆炸性增长初期,是应该优先选择快速上线还是构建可扩展的基础?书中对于微服务拆分策略的阐述,感觉更像是在描述“怎么做”,而不是“为什么这样做”,缺乏对不同拆分模式(如按业务域、按技术栈)的优劣势分析,以及在实际应用中可能遇到的陷阱。例如,书中提到了一种通用的服务划分方法,但并没有详细说明如何在实际项目评审中,说服业务方接受技术上可能带来的短期影响。对于一些初创团队来说,如何平衡资源和技术债务,如何在早期设计中预留扩展性,这些更为实际的问题,书中提及的篇幅较少,更多的是在介绍成熟平台的技术实现。我期待能看到更多关于架构演进、遗留系统改造的案例,以及在资源有限的情况下,如何做出最优的架构决策。
评分这本著作在某些章节中,对“负载均衡的策略”进行了详细的阐述,包括轮询、加权轮询、最少连接等,并且还提及了一些更高级的算法,如基于响应时间的动态调整。然而,我发现书中在描述这些策略时,更多的是一种“技术指南”式的陈述,缺乏对实际应用场景的深入分析。比如,对于一个高并发的API网关,应该优先考虑哪种负载均衡策略?如果某个服务节点响应缓慢,如何快速将其剔除出负载均衡池?书中虽然提到了这些策略,但并没有充分展示这些策略在不同场景下的实际效果,以及可能出现的性能问题和优化方向。我更希望看到的是,在实际的业务压力下,作者是如何选择和调整这些负载均衡策略的,以及在遇到问题时,是如何进行调试和优化的。
评分这本书的结构安排,给人的感觉像是对现有成熟分布式系统的技术手册,缺乏对“为什么”的深度挖掘。例如,在讨论“分布式事务的解决方案”时,书中详细介绍了XA、TCC、Saga等模式,并列举了各自的优缺点,但对于在什么情况下选择哪种模式,以及每种模式的实现细节中可能遇到的性能瓶颈和复杂性,着重笔墨不够。在我的理解中,选择分布式事务的方案,往往与业务场景的对数据一致性要求、并发量、允许的延迟等因素息息相关。书中更侧重于技术的“实现”,而非“决策”。对于一个初涉分布式架构的开发者来说,了解这些模式是基础,但更关键的是如何根据实际情况做出最佳选择,并有效地应对其带来的挑战。本书在这方面的指导性相对较弱,更多地停留在对现有技术的罗列和介绍。
评分我阅读这本书时,有一个明显的感受是,它在“系统监控与日志分析”的部分,给予了相当多的篇幅,详细介绍了各种监控工具(如Prometheus、Grafana)的使用方法,以及日志收集和处理的流程。这无疑为构建一个可视化的运维体系提供了技术参考。然而,我感到有些遗憾的是,书中对于“如何从海量日志中挖掘出关键信息,从而快速定位到问题的根源”,这方面的内容着墨不多。在实际的故障排查中,日志的价值不仅仅在于收集和存储,更在于其分析的深度和效率。书中对于异常检测、模式识别、日志关联分析等高级话题,并没有展开深入的探讨,这使得我在面对复杂的分布式系统故障时,仍可能感到无从下手。我期待的是,这本书能更多地分享一些在日志分析方面,独到的方法论或实用的技巧,而不仅仅是工具的使用介绍。
评分一次买了好几本,还没看,应该还可以吧
评分这个东西还是很赞的呦
评分还没有进行看,看目录还是很不错的。从阿里技术书推荐那里知道这本书。
评分好久就想买了,趁着京东100-50的活动入手了
评分君不见,高堂明镜悲白发,朝如青丝暮成雪。
评分内容还是有的,可以翻看下了,总体感觉还行了。作为资料书,可研读下了。
评分Java web 经典书籍,,好好学习天天向上。。
评分昨天下单,今天就到了,很好,书都是包装好的,书的质量不错,好好学习吧
评分最后的好梦 渐渐消失
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有