OSG10 第18章灾难恢复规划图文画报精读版

主题 01

DRP 与 BCP：技术恢复支撑业务连续

灾难恢复规划是业务连续性规划的技术补充。BCP 关注业务怎么继续，DRP 关注系统、数据、设施和技术能力如何恢复，让组织重新回到可运行状态。

章节主线

英文原文摘录

Disaster recovery planning is the technical complement to BCP.

中文直译

灾难恢复规划是 BCP 的技术补充。

小白解释

BCP 更偏业务目标，DRP 更偏技术恢复手段。

考点提醒

DRP 和 BCP 经常一起考，但不要混同。

DRP 目标

英文原文摘录

Restore the business to full operating capacity.

中文直译

把业务恢复到完整运行能力。

小白解释

不是只把服务器开机，而是让关键业务能恢复运行。

考点提醒

End goal = full operating capacity。

混乱中有序

英文原文摘录

DRP brings order to chaos.

中文直译

DRP 给混乱带来秩序。

小白解释

灾难时人会慌，计划要提前写好谁做什么、先做什么。

考点提醒

计划要清楚到现场人员能快速执行。

近似自动驾驶

英文原文摘录

A DRP should almost run on autopilot.

中文直译

DRP 应几乎能自动运行。

小白解释

越少临场拍脑袋，越能减少错误和延误。

考点提醒

Autopilot 强调预案、清单和明确职责。

降低决策压力

英文原文摘录

Reduce decision-making during a disaster.

中文直译

降低灾难期间的决策压力。

小白解释

复杂判断尽量在平时完成，灾难中按步骤执行。

考点提醒

DRP 文档和检查清单服务于这个目标。

启动条件

英文原文摘录

DRP kicks in when mission-critical processes are affected.

中文直译

关键任务流程受影响时 DRP 启动。

小白解释

不是任何小故障都叫灾难，要看是否影响关键业务。

考点提醒

Disaster declaration authority 要在计划中定义。

技术控制

英文原文摘录

DRP includes technical controls.

中文直译

DRP 包括技术控制。

小白解释

备份、备用站点、复制、容错、恢复流程都属于 DRP 关注点。

考点提醒

技术恢复策略要满足 RTO/RPO。

统一项目

英文原文摘录

Many organizations combine BCP, DRP, and crisis management.

中文直译

许多组织会整合 BCP、DRP 和危机管理。

小白解释

现实中常归在一个连续性管理项目下，但考试仍会区分概念。

考点提醒

看到 umbrella program 时注意各组件职责。

主题 02

灾难类型与应急准备：自然、人为、技术都要覆盖

DRP 要基于真实风险而不是想象风险。自然灾害、人为灾害、技术故障、公用事业中断和供应链问题都可能让关键业务停摆。

自然灾害

英文原文摘录

Natural disasters can occur with little warning.

中文直译

自然灾害可能几乎没有预警。

小白解释

火灾、洪水、地震、风暴、火山、疫情都要按地区风险评估。

考点提醒

DRP 要考虑组织所在区域的自然风险。

本地资源

英文原文摘录

Use local emergency preparedness resources.

中文直译

使用本地应急准备资源。

小白解释

政府应急团队、消防、医疗、公共事业供应商都可能参与计划。

考点提醒

把外部应急资源纳入计划。

人为灾害

英文原文摘录

Human-made disasters require planning.

中文直译

人为灾害也需要规划。

小白解释

恐怖袭击、破坏、误操作、罢工或供应链中断都可能造成灾难。

考点提醒

不要只把 disaster 理解成自然灾害。

风险平衡

英文原文摘录

Emphasize solid risk management.

中文直译

强调扎实的风险管理。

小白解释

不能因为某些灾难很吓人，就忽视更常见的停电、硬件故障和误操作。

考点提醒

按可能性和影响做资源分配。

电力问题

英文原文摘录

Power failures require provisions.

中文直译

电力故障需要预案。

小白解释

UPS 提供短时电力，发电机支持更长时间，但都要定期测试。

考点提醒

UPS 与 generator 是常见 DRP 控制。

替换部件

英文原文摘录

Plan for replacement parts.

中文直译

规划替换部件。

小白解释

关键硬件坏了，能不能快速拿到备件会直接影响恢复。

考点提醒

Spare parts 和供应链同样影响 RTO。

人员因素

英文原文摘录

Do not forget the human factor.

中文直译

不要忘记人的因素。

小白解释

员工是否能到场、是否安全、是否知道职责，都会影响恢复。

考点提醒

人员安全优先于资产恢复。

通信准备

英文原文摘录

Plans should include communications.

中文直译

计划应包括通信。

小白解释

灾难时常规电话、网络、办公系统可能不可用，需要备选通信方式。

考点提醒

Stakeholder communications 是 DRP 成败关键。

主题 03

系统弹性、容错、高可用与 RAID

可用性是 CIA 三元组之一。系统弹性、容错和高可用通过冗余、负载均衡、故障转移和 RAID 等技术减少停机，但 RAID 绝不是备份。

可用性目标

英文原文摘录

Technical controls affect availability.

中文直译

技术控制会影响可用性。

小白解释

DRP 的大量技术设计都是为了让服务不中断或尽快恢复。

考点提醒

Availability 是 DRP 最核心的 CIA 目标。

系统弹性

英文原文摘录

Resilience maintains acceptable service.

中文直译

弹性维持可接受服务。

小白解释

系统遇到故障时还能降级运行，而不是立刻完全崩溃。

考点提醒

System resilience = maintain acceptable level。

容错

英文原文摘录

Fault tolerance allows operation after failure.

中文直译

容错允许故障后继续运行。

小白解释

某个组件坏了，冗余组件接上继续服务。

考点提醒

Fault tolerance 不是 backup。

高可用

英文原文摘录

High availability uses redundant components.

中文直译

高可用使用冗余组件。

小白解释

负载均衡、HA pair、集群和多路径都可减少停机。

考点提醒

HA 常与 redundant technology components 绑定。

可用性数字

英文原文摘录

99.9 percent is three nines availability.

中文直译

99.9% 是三个 9 的可用性。

小白解释

可用性要求越高，成本和复杂度越高。

考点提醒

Higher availability requires HA, FT, resilience controls。

RAID 0/1

英文原文摘录

RAID-0 is striping; RAID-1 is mirroring.

中文直译

RAID 0 是条带；RAID 1 是镜像。

小白解释

RAID 0 提升性能但无容错；RAID 1 两盘保存相同数据。

考点提醒

RAID 0 没有 fault tolerance。

RAID 5/6/10

英文原文摘录

RAID-5 uses parity; RAID-10 is a stripe of mirrors.

中文直译

RAID 5 使用校验；RAID 10 是镜像条带。

小白解释

RAID 5 单校验，RAID 6 双校验，RAID 10 至少四盘。

考点提醒

RAID 5 至少三盘；RAID 6 可容忍更多磁盘故障。

RAID 不是备份

英文原文摘录

Fault tolerance is not the same as a backup.

中文直译

容错不等同于备份。

小白解释

误删、勒索、损坏或整阵列失败时，没有备份就无法恢复。

考点提醒

考试看到管理层说有 RAID 就不用备份，通常是错。

主题 04

可信恢复与 QoS：恢复后也要安全

可信恢复强调系统故障后能恢复到安全、受控、可信的状态。Common Criteria 提到四类可信恢复，QoS 则用于保护网络可用性和关键流量。

可信恢复

英文原文摘录

Trusted recovery provides assurances after failure.

中文直译

可信恢复为故障后状态提供保证。

小白解释

系统恢复后不能处在绕过访问控制或泄露敏感数据的危险状态。

考点提醒

Trusted recovery 与 secure state/security controls 相关。

两大元素

英文原文摘录

Recovery process includes system recovery and data restoration.

中文直译

恢复过程包括系统恢复和数据恢复。

小白解释

先让系统安全运行，再恢复受影响文件和服务。

考点提醒

文件分类标签、访问控制也要保持正确。

手动恢复

英文原文摘录

Manual recovery requires intervention.

中文直译

手动恢复需要人工介入。

小白解释

系统故障后不能自动进入安全状态，需要管理员手动恢复。

考点提醒

Manual recovery 是四类之一。

自动恢复

英文原文摘录

Automated recovery restores itself.

中文直译

自动恢复能自行恢复。

小白解释

例如硬件 RAID 对单盘失败自动恢复。

考点提醒

Automated recovery 可能只覆盖某一类故障。

避免不当损失

英文原文摘录

Automated recovery protects against undue loss.

中文直译

自动恢复避免不当损失。

小白解释

恢复时还要保护数据对象，避免恢复过程造成过多数据丢失。

考点提醒

Without undue loss 关注对象保护。

功能恢复

英文原文摘录

Function recovery restores specific functions.

中文直译

功能恢复恢复特定功能。

小白解释

系统能完成关键功能恢复，或失败时明确通知。

考点提醒

Function recovery 是 Common Criteria 相关考点。

QoS

英文原文摘录

QoS controls protect network availability.

中文直译

QoS 控制保护网络可用性。

小白解释

灾难中可优先保证语音、复制、关键业务流量。

考点提醒

QoS 与 availability 和 network resilience 相关。

安全与可用性权衡

英文原文摘录

Recovery depends on security and availability priorities.

中文直译

恢复取决于安全与可用性优先级。

小白解释

恢复设计要平衡业务急迫性和安全状态。

考点提醒

不能为了恢复速度放弃基本安全。

主题 05

恢复策略：用 BIA 排序，用指标定目标

恢复策略要先识别最关键业务，再设定恢复目标。BIA 报告提供业务优先级、故障成本和关键功能信息，MTD、RTO、RPO、MTTR 则把目标量化。

BIA 输入

英文原文摘录

The BIA is a resource for recovery.

中文直译

BIA 是恢复工作的资源。

小白解释

BIA 已经识别关键业务单元、故障成本和依赖关系，DRP 可直接使用。

考点提醒

DRP 优先级来自 BIA。

关键业务

英文原文摘录

Identify critical business functions.

中文直译

识别关键业务功能。

小白解释

灾难后不是所有系统同时恢复，先恢复最支撑组织使命的部分。

考点提醒

Prioritization 是恢复策略核心。

恢复顺序

英文原文摘录

Determine what to restore and in what order.

中文直译

确定恢复什么以及按什么顺序恢复。

小白解释

先恢复哪条业务线、哪个数据库、哪个网络服务，都要提前决定。

考点提醒

按业务影响排序，而不是按技术人员喜好。

MTD

英文原文摘录

MTD is maximum tolerable downtime.

中文直译

MTD 是最大可容忍停机时间。

小白解释

超过这个时间，组织可能遭受不可接受损失。

考点提醒

MTD 是上限，RTO 通常应小于 MTD。

RTO

英文原文摘录

RTO is recovery time objective.

中文直译

RTO 是恢复时间目标。

小白解释

系统或流程应在多久内恢复到可用状态。

考点提醒

RTO 回答“多久恢复”。

RPO

英文原文摘录

RPO is recovery point objective.

中文直译

RPO 是恢复点目标。

小白解释

组织最多能接受丢失多少时间范围的数据。

考点提醒

RPO 决定备份/复制频率。

MTTR

英文原文摘录

MTTR is mean time to repair.

中文直译

MTTR 是平均修复时间。

小白解释

它衡量修复故障平均需要多久。

考点提醒

MTTR 和维护性、恢复速度有关。

现场沟通

英文原文摘录

Keep the outside world informed.

中文直译

让外部了解恢复状态。

小白解释

客户、监管者、员工和公众需要及时、准确的恢复信息。

考点提醒

Communication plan 是 DRP 的重要组成。

主题 06

备用处理站点：按 RTO/RPO、预算和风险选择

备用站点有冷站、温站、热站、移动站、云和多站点等选择。恢复越快通常越贵，选择时要看业务目标、地理风险、容量承诺和数据敏感性。

备用站点目的

英文原文摘录

Alternate processing sites support recovery.

中文直译

备用处理站点支持恢复。

小白解释

主站不可用时，组织需要另一个地方继续运行关键业务。

考点提醒

Recovery facility 是 DRP 核心元素。

冷站

英文原文摘录

Cold sites are standby facilities.

中文直译

冷站是备用设施。

小白解释

通常只有空间、电力和基础设施，设备、数据和线路还要后续准备。

考点提醒

Cold site 成本低，恢复慢，测试难。

温站

英文原文摘录

Warm sites occupy the middle ground.

中文直译

温站处于中间位置。

小白解释

设备和通信线路较齐全，但关键数据可能需要从备份恢复。

考点提醒

Warm site = between cold and hot。

热站

英文原文摘录

Hot site is opposite of cold site.

中文直译

热站与冷站相反。

小白解释

设施、设备和数据准备程度最高，恢复快但成本高。

考点提醒

Hot site 支持低 RTO/RPO，但费用高。

移动站

英文原文摘录

Mobile sites are nonmainstream alternatives.

中文直译

移动站是非主流替代方案。

小白解释

移动机房或拖车可临时到灾区附近提供处理能力。

考点提醒

Mobile site 灵活但物流复杂。

云 DR

英文原文摘录

Cloud computing is a DR option.

中文直译

云计算是一种 DR 选项。

小白解释

IaaS 可存 ready-to-run images，但要考虑地区、可用区和容量承诺。

考点提醒

Cloud DR 不代表自动免费通过 DR 要求。

容量协议

英文原文摘录

Consider a resource capacity agreement.

中文直译

考虑资源容量协议。

小白解释

灾难时大家都抢云资源，没有容量承诺可能启动不了。

考点提醒

Cloud capacity agreement 是云 DR 考点。

互助协议

英文原文摘录

MAAs are reciprocal agreements.

中文直译

MAA 是互惠协议。

小白解释

两个组织约定灾难时互相提供资源，但执行难、地理共灾和保密是问题。

考点提醒

MAA 成本低但可靠性和可执行性弱。

主题 07

数据库恢复：保险库、远程日志与远程镜像

很多组织的关键业务依赖数据库。数据库恢复要匹配 RPO 和成本，常见技术包括电子保险库、远程日志和远程镜像，最好让数据库专家参与 DRP。

数据库重要性

英文原文摘录

Many organizations rely on databases.

中文直译

许多组织依赖数据库。

小白解释

销售、物流、运营和客户信息常在数据库里，恢复策略必须覆盖。

考点提醒

Database specialist should be on DRP team。

RPO 边界

英文原文摘录

Select options within the RPO.

中文直译

在 RPO 边界内选择方案。

小白解释

方案不能导致超过可接受的数据丢失。

考点提醒

RPO 直接影响数据库复制/备份技术选择。

电子保险库

英文原文摘录

Electronic vaulting moves backups remotely.

中文直译

电子保险库把备份移动到远端。

小白解释

通常是批量传输数据库备份，到灾难时再取出恢复。

考点提醒

Electronic vaulting 可能有较大数据丢失。

服务定义

英文原文摘录

Insist on a written service definition.

中文直译

坚持书面服务定义。

小白解释

要写清容量、带宽和灾难时取回数据所需时间。

考点提醒

不要接受模糊的 vendor promise。

远程日志

英文原文摘录

Remote journaling transfers transaction logs.

中文直译

远程日志传输事务日志。

小白解释

频率比电子保险库高，灾难后把日志应用到生产数据库。

考点提醒

Remote journaling 不一定是实时活动数据库。

远程镜像

英文原文摘录

Remote mirroring maintains a live database server.

中文直译

远程镜像维护活动数据库服务器。

小白解释

主站变更几乎同时复制到备站，恢复快但成本最高。

考点提醒

Remote mirroring 常用于 hot site。

云数据库

英文原文摘录

Cloud databases may include redundancy.

中文直译

云数据库可能内建冗余。

小白解释

云平台可简化恢复，但仍要理解具体服务限制。

考点提醒

Cloud feature 不自动等于满足组织 RTO/RPO。

定期测试

英文原文摘录

Periodically test your vaulting setup.

中文直译

定期测试保险库设置。

小白解释

最好做突击恢复测试，确认备份能恢复到指定日期。

考点提醒

备份方案必须测试 restoration。

主题 08

DRP 文档与应急响应：不同角色拿不同版本

DRP 文档要面向不同受众：高层摘要、部门计划、技术指南、个人检查清单和完整计划。紧急响应部分要清楚说明安全、通知、宣布灾难和启动恢复。

多版本文档

英文原文摘录

Maintain multiple types of plan documents.

中文直译

维护多种计划文档。

小白解释

不同人只需要与职责相关的信息，不能都塞一本巨厚文档。

考点提醒

Custom-tailored documents improve execution。

高层摘要

英文原文摘录

Executive summary provides high-level overview.

中文直译

执行摘要提供高层概览。

小白解释

给管理层、公共关系和决策者快速理解恢复工作。

考点提醒

Executive summary 不是技术操作手册。

部门计划

英文原文摘录

Department-specific plans.

中文直译

部门特定计划。

小白解释

各部门按自身流程和人员职责执行恢复。

考点提醒

Department plan 减少灾难中查找无关内容。

技术指南

英文原文摘录

Technical guides for IT personnel.

中文直译

面向 IT 人员的技术指南。

小白解释

说明备份系统、备用站点、网络、数据库如何实际恢复。

考点提醒

Technical guide 给实施人员用。

检查清单

英文原文摘录

Checklists guide disaster recovery team members.

中文直译

检查清单指导 DR 团队成员。

小白解释

灾难中人容易漏步骤，清单能强制按顺序做事。

考点提醒

Checklist 与 autopilot 思路一致。

宣布权限

英文原文摘录

Define who can declare a disaster.

中文直译

定义谁有权宣布灾难。

小白解释

是否启动 DRP、是否切换站点，需要明确授权。

考点提醒

Declaration authority 是 DRP 应包含内容。

联系人清单

英文原文摘录

Include personnel contact lists.

中文直译

包括人员联系人清单。

小白解释

要有主要联系方式、备用联系方式和后备联系人。

考点提醒

Contact list must be current and tested。

敏感分发

英文原文摘录

Treat DRP as a sensitive document.

中文直译

把 DRP 视为敏感文档。

小白解释

按需分发、最小权限，但关键人员和高层必须能访问完整计划。

考点提醒

DRP 泄露可能暴露弱点和恢复站点信息。

主题 09

备份策略：全备、增量、差异与恢复测试

备份是 DRP 的最后一道恢复手段。全备、增量和差异的区别，常以 archive bit、备份速度、恢复速度和恢复顺序考查。备份成功不等于能恢复。

备份角色

英文原文摘录

Backups are copies of data.

中文直译

备份是数据副本。

小白解释

数据丢失、损坏、勒索或站点损毁时，备份可能是最后救命手段。

考点提醒

Backup strategy 是 DRP 技术指南重要内容。

全备

英文原文摘录

Full backups store a complete copy.

中文直译

全备存储完整副本。

小白解释

复制所有文件，通常清 archive bit，恢复基础最稳但备份耗时。

考点提醒

Full backup 是增量/差异恢复的起点。

增量备份

英文原文摘录

Incremental backups store changed files.

中文直译

增量备份存储变化文件。

小白解释

只备份上次备份以来变动文件，并清 archive bit。

考点提醒

恢复需要最近全备 + 所有后续增量，按顺序恢复。

差异备份

英文原文摘录

Differential backups store changes since full backup.

中文直译

差异备份存储自上次全备以来的变化。

小白解释

不清 archive bit，所以每天差异备份会越来越大。

考点提醒

恢复需要最近全备 + 最新差异。

恢复权衡

英文原文摘录

Differential restores faster than incremental.

中文直译

差异恢复通常比增量更快。

小白解释

差异备份本身较慢较大，但恢复只需两个集合。

考点提醒

增量备份快，恢复慢；差异备份慢些，恢复快些。

异地存储

英文原文摘录

Keep copies off-site.

中文直译

保留异地副本。

小白解释

只把备份放在主数据中心旁边，灾难一起毁掉就没有意义。

考点提醒

Cloud storage/offsite backup 提供地理隔离。

备份窗口

英文原文摘录

Schedule backups during low peak periods.

中文直译

在低峰期安排备份。

小白解释

备份和恢复会占用 I/O、网络和计算资源。

考点提醒

Backup window 与业务影响相关。

测试还原

英文原文摘录

Test recovery processes.

中文直译

测试恢复过程。

小白解释

备份软件显示成功，不代表文件真的能恢复。

考点提醒

未测试恢复是备份失败的常见原因。

主题 10

Recovery vs Restoration：先恢复业务，再复原主站

Recovery 是把业务流程和 IT 能力先拉回可运行状态；Restoration 是把原站点或新主站点恢复到正常运营。恢复团队和抢救团队关注点不同。

概念区分

英文原文摘录

Recovery and restoration are separate concepts.

中文直译

恢复和复原是不同概念。

小白解释

前者关注“先能跑”，后者关注“回到正常主站”。

考点提醒

Recovery vs restoration 是本章典型区分题。

Recovery

英文原文摘录

Recovery brings operations back to working state.

中文直译

恢复让业务运营回到工作状态。

小白解释

可能在备用站点运行，不一定已经回到原办公室。

考点提醒

Recovery 受 MTD/RTO 约束，时间很紧。

Restoration

英文原文摘录

Restoration brings a facility back to normal.

中文直译

复原让设施回到正常状态。

小白解释

清理、修复、重建原站点，或选择新的主站点。

考点提醒

Restoration 通常比 recovery 有更长时间窗口。

恢复团队

英文原文摘录

Recovery team restores IT capabilities swiftly.

中文直译

恢复团队快速恢复 IT 能力。

小白解释

他们负责启用备用站点、恢复系统和业务能力。

考点提醒

Recovery team 目标是满足 RTO/MTD。

抢救团队

英文原文摘录

Salvage team restores the primary site.

中文直译

抢救团队复原主站点。

小白解释

原站点确认人员安全后，抢救团队才开始修复工作。

考点提醒

Salvage team 关注 original/primary site。

迁回风险

英文原文摘录

Moving back to the primary site is risky.

中文直译

迁回主站点本身有风险。

小白解释

从备用站点切回原站点要有条件、步骤和验证。

考点提醒

Return to primary site should be orderly。

紧急状态结束

英文原文摘录

Emergency ends after normal operations return.

中文直译

正常运营恢复后紧急状态才结束。

小白解释

只是在备用站点运行，不代表灾难恢复工作完全结束。

考点提醒

State of emergency 不应过早宣布结束。

培训与文档

英文原文摘录

All recovery personnel require training.

中文直译

所有恢复人员都需要培训。

小白解释

新角色要初训，团队成员要复训，计划变更也要培训。

考点提醒

DRP training and documentation must be maintained。

主题 11

DRP 测试与维护：从通读到完全中断

DRP 必须周期性测试和维护。六种测试从纸面审阅到完全切换，业务影响和风险逐步增加；测试后要复盘、更新计划、培训人员。

周期测试

英文原文摘录

Every DRP must be tested periodically.

中文直译

每个 DRP 都必须定期测试。

小白解释

不测试的计划很可能在灾难中失效。

考点提醒

DRP testing 是第 18 章高频考点。

通读

英文原文摘录

Read-throughs distribute plans for review.

中文直译

通读测试分发计划供审阅。

小白解释

团队成员阅读计划，发现遗漏和不清楚之处。

考点提醒

Read-through 是最简单、影响最低的测试。

桌面演练

英文原文摘录

Tabletop members discuss a scenario.

中文直译

桌面演练让成员讨论场景。

小白解释

主持人给出灾难场景，团队讨论如何响应。

考点提醒

Tabletop 是会议讨论，不真正切换业务。

走查

英文原文摘录

Walk-throughs follow plan steps.

中文直译

走查按计划步骤检查。

小白解释

团队逐步走流程，可能考虑或执行部分物理动作。

考点提醒

Walk-through 比 tabletop 更贴近流程细节。

模拟

英文原文摘录

Simulation tests ask for response measures.

中文直译

模拟测试要求采取响应措施。

小白解释

给出场景后，部分响应措施会被真实测试。

考点提醒

Simulation may impact noncritical units。

并行测试

英文原文摘录

Parallel tests activate the recovery site.

中文直译

并行测试启用恢复站点。

小白解释

人员到备用站点执行职责，但主站仍负责实际业务。

考点提醒

Parallel test 不把生产责任切走。

完全中断

英文原文摘录

Full-interruption tests shut down the primary site.

中文直译

完全中断测试关闭主站点。

小白解释

真正切到备用站点，风险最高、最难安排。

考点提醒

Full-interruption provides strongest test but highest risk。

活文档

英文原文摘录

A DRP is a living document.

中文直译

DRP 是活文档。

小白解释

组织、系统、人员和业务变化后，DRP 要跟着更新。

考点提醒

测试后 debrief、文档更新、培训是维护闭环。