系统可靠性的三个概念
1.高可用( High Availability,HA )
当系统发生故障时,允许短暂中断(如可用时间为 5 个 9 )。通过冗余实例和失效检测,实现快速恢复。
2.容错( Fault Tolerant,FT )
当系统发生故障时,仍可以继续运行,做到零宕机时间,运行水平可能有所下降。
如果高可用系统做到了零宕机,那么这个系统就是一个容错系统。
3.灾难恢复( Disaster Recovery,DR )
当系统发生重大灾难时,按照恢复计划挽救业务,恢复关键业务系统,确保业务不被中断。(在新的基础设施部署系统)
灾难的恢复,需要一定的恢复时间( RTO ),也可能会丢失一部分数据( RPO )。
通过自动化脚本或基础设施自动创建,以缩短恢复时间( RTO )。
http://www.pbenson.net/2014/02/the-difference-between-fault-tolerance-high-availability-disaster-recovery/https://yq.aliyun.com/articles/702191https://www.ruanyifeng.com/blog/2019/11/fault-tolerance.html