基本信息
书名:应急管理在银行业数据中心的策略与实践
定价:118.00元
作者:杨志国
出版社:人民邮电出版社
出版日期:2018-05-01
ISBN:9787115483720
字数:
页码:379
版次:1
装帧:平装
开本:小16开
商品重量:0.4kg
编辑推荐
1.本书理论与实践相结合,能更好地运用到工作实践中。 n
2.本书是一本实用的应急管理策略与实践方面“教科书”式的实践经验介绍书籍。 n
3.本书为读者提供了很多具有借鉴意义的应急预案和主动预防示例。
内容提要
本书从应急管理的基本概念出发,结合大型商业银行数据中心的业务连续性要求特性,通过应急管理的对象、组织架构、管理制度、主动运维与场景应用等方面的论述,系统地介绍了应急管理体系的基本理论与方法。全书共11章,包括应急管理基础,银行业数据中心应急管理概述,应急管理组织架构,应急管理策略、范围、对象及目标,应急管理场所,应急管理制度,主动性维护,应急场景及预案,应急处置及启动,应急管理工具建设,应急案例介绍等。本书理论与实践相结合,为读者提供了很多具有借鉴意义的应急预案和主动预防示例,能更好地运用到工作实践中。
目录
目录n
第 1章应急管理基础 1n
1.1 基础知识 2n
1.1.1 工作原则 2n
1.1.2 灾难 3n
1.1.3 灾难恢复 4n
1.1.4 灾难备份 4n
1.1.5 灾难备份中心 4n
1.1.6 关键业务功能 5n
1.1.7 业务影响分析 5n
1.1.8 恢复时间目标 5n
1.1.9 恢复点目标 6n
1.1.10 风险评估 6n
1.1.11 应急预案 7n
1.1.12 演练 7n
1.1.13 桌面演练 7n
1.1.14 模拟切换演练 8n
1.1.15 真实切换演练 8n
1.1.16 其他术语 9n
1.2 应急管理与业务连续性管理 9n
1.2.1 业务连续性管理的定义 9n
1.2.2 应急管理与业务连续性管理的关系 10n
1.3 应急管理与风险管理 11n
1.3.1 风险的定义 11n
1.3.2 信息安全风险的定义 13n
1.3.3 风险管理的定义 15n
1.3.4 应急管理与风险管理的关系 16n
1.4 应急管理和灾难备份与恢复管理 16n
1.4.1 灾难恢复的定义 16n
1.4.2 灾难恢复7要素 17n
1.4.3 应急管理和灾难备份与恢复管理的关系 17n
1.5 银行业数据中心应急管理要求 18n
1.5.1 国家相关法律法规要求 18n
1.5.2 相关机构的要求 25n
n
第 2章银行业数据中心应急管理概述 29n
2.1 数据中心的定义及分级 30n
2.1.1 数据中心的定义 30n
2.1.2 数据中心的分级 31n
2.2 云计算数据中心功能的演进 32n
2.3 银行业数据中心典型组织架构 34n
2.3.1 如何建立数据中心的组织架构 34n
2.3.2 典型的银行业数据中心组织架构 36n
2.4 银行业数据中心的应急管理 38n
n
第3章银行业数据中心应急管理组织架构 41n
3.1 银行业数据中心应急管理组织成立目的 42n
3.2 银行业数据中心应急管理组织架构 42n
3.2.1 应急领导小组 43n
3.2.2 应急执行小组 44n
3.2.3 应急保障小组 45n
3.2.4 外部支持小组 45n
n
第4章银行业数据中心应急管理策略、范围、对象及目标 47n
4.1 应急管理策略 48n
4.1.1 事前预防策略 48n
4.1.2 事中响应与处置策略 48n
4.1.3 事后改进策略 49n
4.1.4 资源与文化保障策略 50n
4.2 应急管理范围 50n
4.3 应急管理对象 50n
4.3.1 软件 51n
4.3.2 硬件 51n
4.3.3 服务 51n
4.3.4 数据 52n
4.3.5 人员 52n
4.4 应急管理目标 52n
n
第5章银行业数据中心应急管理场所 55n
5.1 应急管理场所 56n
5.1.1 生产监控场所 56n
5.1.2 应急指挥场所 57n
5.1.3 应急处置场所 58n
5.1.4 服务受理场所 59n
5.1.5 技术分析场所 59n
5.1.6 测试演练场所 60n
5.2 应急场所的建设方法 61n
5.2.1 大屏幕显示系统 61n
5.2.2 全球IP电话系统 66n
5.2.3 虚拟终端及云桌面 69n
n
第6章银行业数据中心应急管理制度 71n
6.1 应急管理的规范与流程 72n
6.1.1 基本原则 72n
6.1.2 角色与职责分工 72n
6.1.3 7×24小时应急运维机制 72n
6.1.4 应急场景(包括但不限于) 74n
6.1.5 应急预案 75n
6.2 事件管理的规范与流程 77n
6.2.1 基本原则 77n
6.2.2 角色与职责分工 77n
6.2.3 事件分类 78n
6.2.4 事件分级 79n
6.2.5 事件业务影响的认定 81n
6.2.6 事件活动的要求 82n
6.2.7 质量控制 83n
n
第7章银行业数据中心主动性维护 85n
7.1 主动性维护基本原则 86n
7.1.1 RCM理论 86n
7.1.2 预防性维护和预测性维护 89n
7.1.3 主动性维护 90n
7.1.4 主动性维护与传统维护观念的差异 91n
7.1.5 主动性维护在银行业数据中心运营中的价值 92n
7.1.6 主动性维护是降低数据中心TCO的新途径 92n
7.2 硬件设备及机房环境设施技术实施方案 93n
7.2.1 运维内容 93n
7.2.2 硬件设备及机房环境设施的主动性维护理念 93n
7.2.3 案例 94n
7.3 网络系统技术实施方案 99n
7.3.1 运维内容 99n
7.3.2 网络系统的主动性维护理念 99n
7.3.3 案例 100n
7.4 主机、开放、windows、X86技术平台实施方案 105n
7.4.1 运维内容 105n
7.4.2 主动性维护理念 105n
7.4.3 案例 106n
7.5 应用系统技术实施方案 120n
7.5.1 运维内容 120n
7.5.2 应用系统的主动性维护理念 120n
7.5.3 案例 121n
7.6 漏洞扫描与渗透测试 127n
7.6.1 运维内容 127n
7.6.2 主动性维护理念 128n
7.6.3 案例 128n
n
第8章银行业数据中心应急场景及预案 131n
8.1 硬件与环境应急场景和预案 133n
8.1.1 应急场景清单 133n
8.1.2 场景一:ORACLE VSM虚拟带库应急 135n
8.1.3 场景二:SL8500物理带库应急方案 138n
8.1.4 场景三:Z13主机硬件故障 140n
8.1.5 场景四:IBM P系列小型机异常宕机 144n
8.1.6 场景五:HDS存储设备应急方案 149n
8.1.7 场景六:NetApp存储设备应急方案 151n
8.1.8 场景七:EMC存储设备应急方案 154n
8.1.9 场景八:UPS系统应急方案 158n
8.1.10 场景九:PDU设备应急方案 160n
8.2 网络应急场景和预案 162n
8.2.1 应急场景清单 162n
8.2.2 场景一:网络设备某一板卡发生故障,该板卡所连接具有n
冗余链路 166n
8.2.3 场景二:网络交换机双引擎中主引擎发生故障,备引擎正n
常,主备引擎切换失败 168n
8.2.4 场景三:外部因素导致生产中心互联网应用系统不可用,n
需要将流量切换到异地灾备中心 169n
8.2.5 场景四:骨干线路丢包 171n
8.2.6 场景五:异常流量导致主备防火墙的通信异常 174n
8.2.7 场景六:VPN设备通道连接异常 176n
8.2.8 场景七:DNS设备的解析服务异常导致DNS服务异常 178n
8.3 数据恢复应急场景及预案 180n
8.3.1 应急场景清单 181n
8.3.2 场景一:数据库热备份恢复切换 184n
8.3.3 场景二:数据库冷备份恢复切换 184n
8.3.4 场景三:物理磁盘数据应急恢复 187n
8.3.5 场景四:物理磁盘外部专业数据恢复应急处理 191n
8.4 主机应急场景和预案 192n
8.4.1 应急场景清单 192n
8.4.2 场景一:主机CICS联机系统交易处理缓慢 194n
8.4.3 场景二:主机CICS联机与外围系统通信异常 200n
8.4.4 场景三:DB2没有可以使用的ACTIVE LOG,DB2 LOGn
不能工作 204n
8.4.5 场景四:一个BSDS文件无法访问,无法对其进行读/n
写操作 206n
8.4.6 场景五:DB2数据空间将耗尽 208n
8.4.7 场景六:磁盘故障触发非计划性Hyperswap 210n
8.4.8 场景七:系统DATASET的利用率超过阈值 215n
8.5 小型机应急场景和预案 216n
8.5.1 应急场景清单 216n
8.5.2 场景一:系统重要资源不足 219n
8.5.3 场景二:CICS交易繁忙以致出现交易排队现象 226n
8.5.4 场景三:MQ通道状态异常 229n
8.5.5 场景四:数据库出现大量行锁 231n
8.5.6 场景五:SQL(联机或批量)执行时间变长 236n
8.5.7 场景六:单台应用服务器出现故障 239n
8.5.8 场景七:加速器逻辑通道夯 244n
8.5.9 场景八:验签业务持续性缓慢 248n
8.5.10 场景九:ORACLE ASM磁盘被赋PVID导致磁盘组损坏 253n
8.5.11 场景十:ORACLE数据库SQL语句执行计划突变 259n
8.6 X86平台应急场景和预案 263n
8.6.1 应急场景清单 263n
8.6.2 场景一:云平台计算节点资源不足 265n
8.6.3 场景二:ORACLE数据库数据损坏 269n
8.6.4 场景三:MySQL Cluster数据库SQL节点hang死 271n
8.6.5 场景四:存储故障 272n
8.6.6 场景五:单台负载均衡器故障 275n
8.6.7 场景六:WAS组件异常 276n
8.7 应用与运行应急场景和预案 278n
8.7.1 应急场景清单 278n
8.7.2 场景一:应用系统按需执行重启 280n
8.7.3 场景二:某应用系统的对端系统未正常收到返回报文 282n
8.7.4 场景三:因业务量高峰、系统处理能力不足引起的联机交易n
缓慢 284n
8.7.5 场景四:批量执行中断 286n
8.7.6 场景五:数据修改异常引发交易异常 288n
8.7.7 场景六:应用产品主备机切换应急预案 290n
8.7.8 场景七:应用系统MQ队列堆积 292n
8.7.9 场景八:应用系统间密钥恢复应急场景 294n
8.7.10 场景九:应用产品版本回退应急预案 296n
8.8 互联网信息安全事件应急场景及预案 297n
8.8.1 应急场景清单 297n
8.8.2 场景一:互联网应用系统网络入侵 299n
8.8.3场景二:互联网出口拒绝服务攻击 300n
n
第9章银行业数据中心应急处置及启动 303n
9.1 应急处置策略与原则 304n
9.1.1 首查监控 305n
9.1.2 关联变更 305n
9.1.3 回顾历史 306n
9.1.4 以我为因 306n
9.1.5 联动后线 307n
9.1.6 并行排查 307n
9.1.7 信息共享 308n
9.1.8 恢复优先 308n
9.2 应急处置实施方法论 309n
9.2.1 应急发现阶段 311n
9.2.2 应急响应阶段 312n
9.2.3 应急恢复阶段 312n
9.2.4 应急验证阶段 314n
9.3 应急管理后评价 314n
n
第 10章银行业数据中心应急管理工具建设 319n
10.1 应急预案管理平台 320n
10.1.1 主要用途 320n
10.1.2 实现功能 320n
10.1.3 建设方法 323n
10.2 应急协作管理平台 324n
10.2.1 主要用途 324n
10.2.2 实现功能 325n
10.2.3 建设方法 328n
10.3 运维流程管理平台 331n
10.3.1 主要用途 332n
10.3.2 实现功能 333n
10.3.3 建设方法 342n
10.4 集中监控管理平台 346n
10.4.1 主要用途 346n
10.4.2 实现功能 347n
10.4.3 建设方法 349n
n
第 11章应急案例介绍 353n
11.1 在线客服人务异常案例 354n
11.1.1 系统简介 354n
11.1.2 案例简述 354n
11.1.3 处置详情 355n
11.1.4 处置要素 355n
11.1.5 后续改进 356n
11.2 信用卡快捷支付退货交易缓慢案例 356n
11.2.1 系统简介 356n
11.2.2 案例简述 357n
11.2.3 处置详情 357n
11.2.4 处置要素 357n
11.2.5 后续改进 358n
11.3 个人理财产品销售异常案例 358n
11.3.1 系统简介 358n
11.3.2 案例简述 359n
11.3.3 处置详情 359n
11.3.4 处置要素 359n
11.3.5 后续改进 360n
11.4 部分借记卡行内转账失败案例 360n
11.4.1 系统简介 360n
11.4.2 案例简述 361n
11.4.3 处置详情 361n
11.4.4 处置要素 361n
11.4.5 后续改进 362n
11.5 小型机内存故障案例 362n
11.5.1 系统简介 362n
11.5.2 案例简述 363n
11.5.3 处置详情 363n
11.5.4 处置要素 363n
11.5.5 后续改进 364n
11.6 存储链路抖动案例 364n
11.6.1 系统简介 364n
11.6.2 案例简述 365n
11.6.3 处置详情 365n
11.6.4处置要素 365n
11.6.5 后续改进 366n
11.7 某互联网应用系统漏洞被利用进行网络入侵攻击 366n
11.7.1 系统简介 366n
11.7.2 案例简述 367n
11.7.3 处置详情 367n
11.7.4 处置要素 367n
11.7.5 后续改进 368n
11.8 某地互联网出口Web服务器遭受DDoS攻击案例 368n
11.8.1 系统简介 368n
11.8.2 案例简述 369n
11.8.3 处置详情 369n
11.8.4 处置要素 370n
11.8.5 后续改进 370n
11.9 某系统交易缓慢案例 370n
11.9.1 系统简介 370n
11.9.2 案例简述 371n
11.9.3 分析过程详述 371n
11.9.4 处置详情 373n
11.9.5 处置要素 374n
11.9.6 后续改进 374n
11.10 某系统投产新版本后批量执行缓慢案例 375n
11.10.1 系统简介 375n
11.10.2 案例简述 375n
11.10.3 分析过程详述 376n
11.10.4 处置详情 377n
11.10.5 处置要素 377n
11.10.6 后续改进 378n
n
参考资料 379
作者介绍
杨志国作为金融业从业者,在大型商业银行从业近30年,现任数据中心副总经理,主要负责数据中心的安全管理、生产调度、总控中心。具有非常丰富的数据中心机房等基础设施建设、设备管理、技术架构、机房搬迁经验,同时精通业界管理体系标准及*佳实践,包括ISO20000标准、ISO27001标准和ITIL等,在IT规划,IT运营管理,信息安全管理等方面亦具有丰富的经验。
文摘
序言
这本书的标题很有意思,【XH】应急管理在银行业数据中心的策略与实践,光是这个名字就让人觉得内容会非常硬核和专业。我本来是想找一本关于金融科技前沿应用的科普读物,结果翻开这本书才发现,它完全是走技术和风控的深水区。内容几乎完全聚焦于银行业数据中心这个核心枢纽,探讨的不是表面的业务创新,而是如何在高压、高并发、高合规要求的环境下,设计一套滴水不漏的应急响应机制。书中对灾备系统的架构设计分析得极其透彻,从理论模型到实际部署的每一个环节都进行了详尽的阐述,比如RTO和RPO指标的设定依据,不同级别故障场景下的切换流程脚本化管理,这些内容对于我这种在IT运维一线摸爬滚打的人来说,简直是本“救命稻草”。它不是那种泛泛而谈的“管理学”,而是充满了具体的技术细节和业界最佳实践的集合。读完第一章,我就意识到,这绝对是为那些需要直接面对生产系统稳定性和合规性挑战的专业人士准备的深度读物,普通对金融感兴趣的读者可能需要极强的专业背景才能跟上节奏。
评分这本书的叙事风格非常独特,它不是线性的教程,更像是专家之间的深度研讨会记录。它的结构非常逻辑化,每一个章节的推进都建立在前一章的技术或管理框架之上,形成了强大的知识闭环。比如,在讨论“人员应急响应培训”时,它没有停留在传统的桌面演练层面,而是深入到情景模拟中的“心理压力测试”和“跨部门沟通协议的精确化”,这些都是教科书上很难找到的实战经验。我个人对其中关于“外部供应商依赖风险管理”的部分印象深刻,它详细列出了在供应链安全日益重要的今天,如何对第三方存储、网络服务提供商的应急能力进行定期的、有针对性的压力测试和审计,确保我们的安全边界不会因为外包环节而出现盲区。这本书的价值在于它将“合规性”和“运营效率”这两个看似矛盾的目标,通过精巧的应急策略设计缝合了起来,读起来虽然不轻松,但每读完一节都有种“茅塞顿开”的感觉,尤其是在理解监管要求背后的技术逻辑时。
评分拿到这本书,我最大的感受是它的“厚重感”,体现在内容的严谨和案例的稀缺上。它似乎避开了所有可以被大众媒体报道的宏大叙事,而是扎根于数据中心内部那些不为人知却至关重要的角落。比如,书中有一章详细分析了“数据一致性”在跨地域灾备切换中的复杂性挑战,引用了多个行业标准和内部审计报告的视角,深度剖析了如何利用特定的加密技术和日志同步机制来确保在极速恢复过程中,业务数据不会出现任何偏差。这种对细节的执着,让我觉得作者一定是亲身经历过重大系统故障并从中吸取了惨痛教训的人。我原本期待一些关于云计算迁移的最新趋势介绍,但这本书更像是回到了基础设施的“内功心法”层面,它教你的不是如何“借力”,而是如何“铸剑”,强调的是自建体系的韧性和可靠性。阅读过程需要高度集中注意力,因为稍不留神错过一个技术名词的定义,后面的推导可能就会跟不上。
评分这本书给我带来的震撼,更多是源于它揭示了银行业数据中心在“看不见”的地方所付出的巨大努力。它没有过多宣传自动化带来的便利,反而着重笔墨放在了“自动化失效”后的“手动干预”流程设计上,这体现了一种非常成熟和保守的风险哲学。例如,书中有一段关于“关键业务连续性验证”的描述,不仅仅是定期的切换演练,还包括了对恢复过程中可能产生的数据偏差进行“回溯验证”的闭环流程,这在很多企业中都是缺失的关键一环。我本来以为这会是一本比较枯燥的流程手册,但作者巧妙地融入了对行业历史重大事故的反思,使得那些冰冷的流程背后有了人性化的警示和教训。这本书的行文风格严谨、克制,几乎看不到任何夸张的描述,所有的论点都由扎实的案例和规范支撑,读完后最大的收获是明白了:在金融这个领域,应急管理不是一个“可选项”,而是维系生存的生命线,而这本书就是关于如何维系这条生命线的详尽操作手册。
评分说实话,这本书的排版和术语密集度让我感到一丝压力,它完全是面向资深数据中心架构师和风控官定制的。我本来是想了解一下行业内有没有更轻松地引入AI来辅助日常运维的模式,结果这本书的重点完全不在于“新潮应用”,而是回归到“基础保障”的基石上。它花费了大量篇幅来阐述如何建立一个可持续、可审计的“应急管理文化”,强调的不是买了多么先进的设备,而是组织内部对于风险的集体认知水平。书中对故障定级标准和升级路径的描述,细致到让我感叹其对细节的偏执——它甚至为不同级别的故障定义了不同的信息通报格式和接收者范围,确保在混乱中信息传递依然高效有序。对于那些刚接触金融IT领域,或者期望快速提升系统可靠性的初学者来说,这本书可能显得过于“老派”和“深奥”,它需要读者具备扎实的网络、存储、虚拟化以及金融监管知识作为前提,否则很容易被各种专业缩写和复杂的流程图淹没。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有