章节主线
Disaster recovery planning is the technical complement to BCP.
灾难恢复规划是 BCP 的技术补充。
BCP 更偏业务目标,DRP 更偏技术恢复手段。
DRP 和 BCP 经常一起考,但不要混同。
左侧是英文原文摘录、中文直译、小白解释和考点提醒;右侧是对应画报。手机端会先显示画报,点击图片可放大查看。
灾难恢复规划是业务连续性规划的技术补充。BCP 关注业务怎么继续,DRP 关注系统、数据、设施和技术能力如何恢复,让组织重新回到可运行状态。
Disaster recovery planning is the technical complement to BCP.
灾难恢复规划是 BCP 的技术补充。
BCP 更偏业务目标,DRP 更偏技术恢复手段。
DRP 和 BCP 经常一起考,但不要混同。
Restore the business to full operating capacity.
把业务恢复到完整运行能力。
不是只把服务器开机,而是让关键业务能恢复运行。
End goal = full operating capacity。
DRP brings order to chaos.
DRP 给混乱带来秩序。
灾难时人会慌,计划要提前写好谁做什么、先做什么。
计划要清楚到现场人员能快速执行。
A DRP should almost run on autopilot.
DRP 应几乎能自动运行。
越少临场拍脑袋,越能减少错误和延误。
Autopilot 强调预案、清单和明确职责。
Reduce decision-making during a disaster.
降低灾难期间的决策压力。
复杂判断尽量在平时完成,灾难中按步骤执行。
DRP 文档和检查清单服务于这个目标。
DRP kicks in when mission-critical processes are affected.
关键任务流程受影响时 DRP 启动。
不是任何小故障都叫灾难,要看是否影响关键业务。
Disaster declaration authority 要在计划中定义。
DRP includes technical controls.
DRP 包括技术控制。
备份、备用站点、复制、容错、恢复流程都属于 DRP 关注点。
技术恢复策略要满足 RTO/RPO。
Many organizations combine BCP, DRP, and crisis management.
许多组织会整合 BCP、DRP 和危机管理。
现实中常归在一个连续性管理项目下,但考试仍会区分概念。
看到 umbrella program 时注意各组件职责。
DRP 要基于真实风险而不是想象风险。自然灾害、人为灾害、技术故障、公用事业中断和供应链问题都可能让关键业务停摆。
Natural disasters can occur with little warning.
自然灾害可能几乎没有预警。
火灾、洪水、地震、风暴、火山、疫情都要按地区风险评估。
DRP 要考虑组织所在区域的自然风险。
Use local emergency preparedness resources.
使用本地应急准备资源。
政府应急团队、消防、医疗、公共事业供应商都可能参与计划。
把外部应急资源纳入计划。
Human-made disasters require planning.
人为灾害也需要规划。
恐怖袭击、破坏、误操作、罢工或供应链中断都可能造成灾难。
不要只把 disaster 理解成自然灾害。
Emphasize solid risk management.
强调扎实的风险管理。
不能因为某些灾难很吓人,就忽视更常见的停电、硬件故障和误操作。
按可能性和影响做资源分配。
Power failures require provisions.
电力故障需要预案。
UPS 提供短时电力,发电机支持更长时间,但都要定期测试。
UPS 与 generator 是常见 DRP 控制。
Plan for replacement parts.
规划替换部件。
关键硬件坏了,能不能快速拿到备件会直接影响恢复。
Spare parts 和供应链同样影响 RTO。
Do not forget the human factor.
不要忘记人的因素。
员工是否能到场、是否安全、是否知道职责,都会影响恢复。
人员安全优先于资产恢复。
Plans should include communications.
计划应包括通信。
灾难时常规电话、网络、办公系统可能不可用,需要备选通信方式。
Stakeholder communications 是 DRP 成败关键。
可用性是 CIA 三元组之一。系统弹性、容错和高可用通过冗余、负载均衡、故障转移和 RAID 等技术减少停机,但 RAID 绝不是备份。
Technical controls affect availability.
技术控制会影响可用性。
DRP 的大量技术设计都是为了让服务不中断或尽快恢复。
Availability 是 DRP 最核心的 CIA 目标。
Resilience maintains acceptable service.
弹性维持可接受服务。
系统遇到故障时还能降级运行,而不是立刻完全崩溃。
System resilience = maintain acceptable level。
Fault tolerance allows operation after failure.
容错允许故障后继续运行。
某个组件坏了,冗余组件接上继续服务。
Fault tolerance 不是 backup。
High availability uses redundant components.
高可用使用冗余组件。
负载均衡、HA pair、集群和多路径都可减少停机。
HA 常与 redundant technology components 绑定。
99.9 percent is three nines availability.
99.9% 是三个 9 的可用性。
可用性要求越高,成本和复杂度越高。
Higher availability requires HA, FT, resilience controls。
RAID-0 is striping; RAID-1 is mirroring.
RAID 0 是条带;RAID 1 是镜像。
RAID 0 提升性能但无容错;RAID 1 两盘保存相同数据。
RAID 0 没有 fault tolerance。
RAID-5 uses parity; RAID-10 is a stripe of mirrors.
RAID 5 使用校验;RAID 10 是镜像条带。
RAID 5 单校验,RAID 6 双校验,RAID 10 至少四盘。
RAID 5 至少三盘;RAID 6 可容忍更多磁盘故障。
Fault tolerance is not the same as a backup.
容错不等同于备份。
误删、勒索、损坏或整阵列失败时,没有备份就无法恢复。
考试看到管理层说有 RAID 就不用备份,通常是错。
可信恢复强调系统故障后能恢复到安全、受控、可信的状态。Common Criteria 提到四类可信恢复,QoS 则用于保护网络可用性和关键流量。
Trusted recovery provides assurances after failure.
可信恢复为故障后状态提供保证。
系统恢复后不能处在绕过访问控制或泄露敏感数据的危险状态。
Trusted recovery 与 secure state/security controls 相关。
Recovery process includes system recovery and data restoration.
恢复过程包括系统恢复和数据恢复。
先让系统安全运行,再恢复受影响文件和服务。
文件分类标签、访问控制也要保持正确。
Manual recovery requires intervention.
手动恢复需要人工介入。
系统故障后不能自动进入安全状态,需要管理员手动恢复。
Manual recovery 是四类之一。
Automated recovery restores itself.
自动恢复能自行恢复。
例如硬件 RAID 对单盘失败自动恢复。
Automated recovery 可能只覆盖某一类故障。
Automated recovery protects against undue loss.
自动恢复避免不当损失。
恢复时还要保护数据对象,避免恢复过程造成过多数据丢失。
Without undue loss 关注对象保护。
Function recovery restores specific functions.
功能恢复恢复特定功能。
系统能完成关键功能恢复,或失败时明确通知。
Function recovery 是 Common Criteria 相关考点。
QoS controls protect network availability.
QoS 控制保护网络可用性。
灾难中可优先保证语音、复制、关键业务流量。
QoS 与 availability 和 network resilience 相关。
Recovery depends on security and availability priorities.
恢复取决于安全与可用性优先级。
恢复设计要平衡业务急迫性和安全状态。
不能为了恢复速度放弃基本安全。
恢复策略要先识别最关键业务,再设定恢复目标。BIA 报告提供业务优先级、故障成本和关键功能信息,MTD、RTO、RPO、MTTR 则把目标量化。
The BIA is a resource for recovery.
BIA 是恢复工作的资源。
BIA 已经识别关键业务单元、故障成本和依赖关系,DRP 可直接使用。
DRP 优先级来自 BIA。
Identify critical business functions.
识别关键业务功能。
灾难后不是所有系统同时恢复,先恢复最支撑组织使命的部分。
Prioritization 是恢复策略核心。
Determine what to restore and in what order.
确定恢复什么以及按什么顺序恢复。
先恢复哪条业务线、哪个数据库、哪个网络服务,都要提前决定。
按业务影响排序,而不是按技术人员喜好。
MTD is maximum tolerable downtime.
MTD 是最大可容忍停机时间。
超过这个时间,组织可能遭受不可接受损失。
MTD 是上限,RTO 通常应小于 MTD。
RTO is recovery time objective.
RTO 是恢复时间目标。
系统或流程应在多久内恢复到可用状态。
RTO 回答“多久恢复”。
RPO is recovery point objective.
RPO 是恢复点目标。
组织最多能接受丢失多少时间范围的数据。
RPO 决定备份/复制频率。
MTTR is mean time to repair.
MTTR 是平均修复时间。
它衡量修复故障平均需要多久。
MTTR 和维护性、恢复速度有关。
Keep the outside world informed.
让外部了解恢复状态。
客户、监管者、员工和公众需要及时、准确的恢复信息。
Communication plan 是 DRP 的重要组成。
备用站点有冷站、温站、热站、移动站、云和多站点等选择。恢复越快通常越贵,选择时要看业务目标、地理风险、容量承诺和数据敏感性。
Alternate processing sites support recovery.
备用处理站点支持恢复。
主站不可用时,组织需要另一个地方继续运行关键业务。
Recovery facility 是 DRP 核心元素。
Cold sites are standby facilities.
冷站是备用设施。
通常只有空间、电力和基础设施,设备、数据和线路还要后续准备。
Cold site 成本低,恢复慢,测试难。
Warm sites occupy the middle ground.
温站处于中间位置。
设备和通信线路较齐全,但关键数据可能需要从备份恢复。
Warm site = between cold and hot。
Hot site is opposite of cold site.
热站与冷站相反。
设施、设备和数据准备程度最高,恢复快但成本高。
Hot site 支持低 RTO/RPO,但费用高。
Mobile sites are nonmainstream alternatives.
移动站是非主流替代方案。
移动机房或拖车可临时到灾区附近提供处理能力。
Mobile site 灵活但物流复杂。
Cloud computing is a DR option.
云计算是一种 DR 选项。
IaaS 可存 ready-to-run images,但要考虑地区、可用区和容量承诺。
Cloud DR 不代表自动免费通过 DR 要求。
Consider a resource capacity agreement.
考虑资源容量协议。
灾难时大家都抢云资源,没有容量承诺可能启动不了。
Cloud capacity agreement 是云 DR 考点。
MAAs are reciprocal agreements.
MAA 是互惠协议。
两个组织约定灾难时互相提供资源,但执行难、地理共灾和保密是问题。
MAA 成本低但可靠性和可执行性弱。
很多组织的关键业务依赖数据库。数据库恢复要匹配 RPO 和成本,常见技术包括电子保险库、远程日志和远程镜像,最好让数据库专家参与 DRP。
Many organizations rely on databases.
许多组织依赖数据库。
销售、物流、运营和客户信息常在数据库里,恢复策略必须覆盖。
Database specialist should be on DRP team。
Select options within the RPO.
在 RPO 边界内选择方案。
方案不能导致超过可接受的数据丢失。
RPO 直接影响数据库复制/备份技术选择。
Electronic vaulting moves backups remotely.
电子保险库把备份移动到远端。
通常是批量传输数据库备份,到灾难时再取出恢复。
Electronic vaulting 可能有较大数据丢失。
Insist on a written service definition.
坚持书面服务定义。
要写清容量、带宽和灾难时取回数据所需时间。
不要接受模糊的 vendor promise。
Remote journaling transfers transaction logs.
远程日志传输事务日志。
频率比电子保险库高,灾难后把日志应用到生产数据库。
Remote journaling 不一定是实时活动数据库。
Remote mirroring maintains a live database server.
远程镜像维护活动数据库服务器。
主站变更几乎同时复制到备站,恢复快但成本最高。
Remote mirroring 常用于 hot site。
Cloud databases may include redundancy.
云数据库可能内建冗余。
云平台可简化恢复,但仍要理解具体服务限制。
Cloud feature 不自动等于满足组织 RTO/RPO。
Periodically test your vaulting setup.
定期测试保险库设置。
最好做突击恢复测试,确认备份能恢复到指定日期。
备份方案必须测试 restoration。
DRP 文档要面向不同受众:高层摘要、部门计划、技术指南、个人检查清单和完整计划。紧急响应部分要清楚说明安全、通知、宣布灾难和启动恢复。
Maintain multiple types of plan documents.
维护多种计划文档。
不同人只需要与职责相关的信息,不能都塞一本巨厚文档。
Custom-tailored documents improve execution。
Executive summary provides high-level overview.
执行摘要提供高层概览。
给管理层、公共关系和决策者快速理解恢复工作。
Executive summary 不是技术操作手册。
Department-specific plans.
部门特定计划。
各部门按自身流程和人员职责执行恢复。
Department plan 减少灾难中查找无关内容。
Technical guides for IT personnel.
面向 IT 人员的技术指南。
说明备份系统、备用站点、网络、数据库如何实际恢复。
Technical guide 给实施人员用。
Checklists guide disaster recovery team members.
检查清单指导 DR 团队成员。
灾难中人容易漏步骤,清单能强制按顺序做事。
Checklist 与 autopilot 思路一致。
Define who can declare a disaster.
定义谁有权宣布灾难。
是否启动 DRP、是否切换站点,需要明确授权。
Declaration authority 是 DRP 应包含内容。
Include personnel contact lists.
包括人员联系人清单。
要有主要联系方式、备用联系方式和后备联系人。
Contact list must be current and tested。
Treat DRP as a sensitive document.
把 DRP 视为敏感文档。
按需分发、最小权限,但关键人员和高层必须能访问完整计划。
DRP 泄露可能暴露弱点和恢复站点信息。
备份是 DRP 的最后一道恢复手段。全备、增量和差异的区别,常以 archive bit、备份速度、恢复速度和恢复顺序考查。备份成功不等于能恢复。
Backups are copies of data.
备份是数据副本。
数据丢失、损坏、勒索或站点损毁时,备份可能是最后救命手段。
Backup strategy 是 DRP 技术指南重要内容。
Full backups store a complete copy.
全备存储完整副本。
复制所有文件,通常清 archive bit,恢复基础最稳但备份耗时。
Full backup 是增量/差异恢复的起点。
Incremental backups store changed files.
增量备份存储变化文件。
只备份上次备份以来变动文件,并清 archive bit。
恢复需要最近全备 + 所有后续增量,按顺序恢复。
Differential backups store changes since full backup.
差异备份存储自上次全备以来的变化。
不清 archive bit,所以每天差异备份会越来越大。
恢复需要最近全备 + 最新差异。
Differential restores faster than incremental.
差异恢复通常比增量更快。
差异备份本身较慢较大,但恢复只需两个集合。
增量备份快,恢复慢;差异备份慢些,恢复快些。
Keep copies off-site.
保留异地副本。
只把备份放在主数据中心旁边,灾难一起毁掉就没有意义。
Cloud storage/offsite backup 提供地理隔离。
Schedule backups during low peak periods.
在低峰期安排备份。
备份和恢复会占用 I/O、网络和计算资源。
Backup window 与业务影响相关。
Test recovery processes.
测试恢复过程。
备份软件显示成功,不代表文件真的能恢复。
未测试恢复是备份失败的常见原因。
Recovery 是把业务流程和 IT 能力先拉回可运行状态;Restoration 是把原站点或新主站点恢复到正常运营。恢复团队和抢救团队关注点不同。
Recovery and restoration are separate concepts.
恢复和复原是不同概念。
前者关注“先能跑”,后者关注“回到正常主站”。
Recovery vs restoration 是本章典型区分题。
Recovery brings operations back to working state.
恢复让业务运营回到工作状态。
可能在备用站点运行,不一定已经回到原办公室。
Recovery 受 MTD/RTO 约束,时间很紧。
Restoration brings a facility back to normal.
复原让设施回到正常状态。
清理、修复、重建原站点,或选择新的主站点。
Restoration 通常比 recovery 有更长时间窗口。
Recovery team restores IT capabilities swiftly.
恢复团队快速恢复 IT 能力。
他们负责启用备用站点、恢复系统和业务能力。
Recovery team 目标是满足 RTO/MTD。
Salvage team restores the primary site.
抢救团队复原主站点。
原站点确认人员安全后,抢救团队才开始修复工作。
Salvage team 关注 original/primary site。
Moving back to the primary site is risky.
迁回主站点本身有风险。
从备用站点切回原站点要有条件、步骤和验证。
Return to primary site should be orderly。
Emergency ends after normal operations return.
正常运营恢复后紧急状态才结束。
只是在备用站点运行,不代表灾难恢复工作完全结束。
State of emergency 不应过早宣布结束。
All recovery personnel require training.
所有恢复人员都需要培训。
新角色要初训,团队成员要复训,计划变更也要培训。
DRP training and documentation must be maintained。
DRP 必须周期性测试和维护。六种测试从纸面审阅到完全切换,业务影响和风险逐步增加;测试后要复盘、更新计划、培训人员。
Every DRP must be tested periodically.
每个 DRP 都必须定期测试。
不测试的计划很可能在灾难中失效。
DRP testing 是第 18 章高频考点。
Read-throughs distribute plans for review.
通读测试分发计划供审阅。
团队成员阅读计划,发现遗漏和不清楚之处。
Read-through 是最简单、影响最低的测试。
Tabletop members discuss a scenario.
桌面演练让成员讨论场景。
主持人给出灾难场景,团队讨论如何响应。
Tabletop 是会议讨论,不真正切换业务。
Walk-throughs follow plan steps.
走查按计划步骤检查。
团队逐步走流程,可能考虑或执行部分物理动作。
Walk-through 比 tabletop 更贴近流程细节。
Simulation tests ask for response measures.
模拟测试要求采取响应措施。
给出场景后,部分响应措施会被真实测试。
Simulation may impact noncritical units。
Parallel tests activate the recovery site.
并行测试启用恢复站点。
人员到备用站点执行职责,但主站仍负责实际业务。
Parallel test 不把生产责任切走。
Full-interruption tests shut down the primary site.
完全中断测试关闭主站点。
真正切到备用站点,风险最高、最难安排。
Full-interruption provides strongest test but highest risk。
A DRP is a living document.
DRP 是活文档。
组织、系统、人员和业务变化后,DRP 要跟着更新。
测试后 debrief、文档更新、培训是维护闭环。