泰坦是一家电信服务商。至于为什么起了这个名字,CEO倪克自有一套想法。虽然历史上最豪华的巨轮泰坦尼克沉没在冰冷的北大西洋,但是我们要取其精华,弃之糟粕。我们也要做巨人,但是我们将把好每一关,我们的泰坦不会沉没。
然而,计划总是不如变化快,人算总是赶不上天算……
第一次沉没的理由 病毒
泰坦从创立开始,已经有3年的时间了。3年来,用户群飞速增长,业务不断扩大,呈现一片繁荣的景象。CEO倪克虽然时不时成为空中飞人,忙得不着家,惹得妻小埋怨,但心里还是很欣喜。
存好是一家做容灾解决方案的IT厂商。存好的CEO吴忧很早就认识倪克。看泰坦业务迅速发展,但没有任何灾备措施,吴忧就找到倪克说,作为一个电信服务商,数据对于泰坦来说非常重要。泰坦要上一套容灾系统来保护自己的关键数据。正在春风得意的倪克随口问了问报价,一听到那么高的费用,倪克就不愿意了,一句“吉人自有天相”把吴忧挡了回去。
然而天有不测风云。2003年的3月8日,对于泰坦来说,简直是个黑色的日子。早上10点,泰坦主服务器由于病毒侵入,发生近两个小时的故障,尽管网管员拼命抢修,仍然造成业务、用户、经营数据的大量丢失,其中包括近一年来企业用户的电话费用统计。没有了数据自然无法讨回所欠费用,最后算下来,造成近400多万元的损失。除此之外,在系统发生故障维修的时间内,很多用户都受到影响无法正常办公,有用户急得几分钟来一个电话,怨声一片。灾难远没有结束。事故发生后,许多用户开始对泰坦失去信任,泰坦因此流失很多用户。
倪克非常困惑:企业平时非常重视安全问题,也建立了牢固的防火墙和企业版杀毒软件,对工作人员的要求也很严格——为防止病毒干扰,规定工作机不能上网等,可是,病毒怎么还是入侵了呢?
任何东西都不是万能的,防火墙和杀毒软件并不是永远固若金汤。况且,再小心谨慎也不可避免会发生各种各样的灾难。除了病毒以外,系统硬件和网络故障、机房断电等,这些灾害也不是仅仅小心就可以避免的。
假如有一套备份的数据,损失就不会这么巨大了。倪克那个后悔啊。颓然了几天之后,倪克规定员工对重要数据一定要进行拷贝。但是,由于泰坦数据量巨大并处于变化中,要及时存储数据占用大量时间和磁带等存储资源,而且不太可能做得及时。CIO陈默陆续走访了其他电信和银行企业,发现有些企业有一套专用的容灾系统,备份与容灾所关注的对象有所不同,备份关系数据的安全,容灾关心业务应用的安全,备份是“数据保护”,而容灾称作“业务应用保护”。备份最多表现为通过备份软件使用磁带机或者磁带库将数据进行拷贝,也可以使用磁盘、光盘作为存储介质;容灾则表现为通过高可用方案将两个站点连接起来。陈默向倪克汇报了其他企业在发生灾难时的措施之后,倪克终于下决心,要给泰坦进行容灾保护。
找谁来建呢?泰坦不想自己承担,一是没那个人力,二是精力也不足。所以陈默主动找到吴忧,两人这次是一拍即合。
2003年8月,泰坦开始建自己的灾备系统。陈默在离办公大楼不远的地方建了一个机房作为容灾中心。这时的泰坦对灾备系统的要求比较简单:灾难发生后,重要数据可以恢复就行。存好公司承担了其灾备系统的建设任务。根据泰坦的要求,存好为其建设数据级容灾系统以对其数据进行保护。
泰坦数据级容灾采用三级备份,第一是数据的热备份,即采用复制软件实现源数据和目标数据实时同步。每次数据更新操作,同时在生产中心和灾备中心进行。第二是数据的冷备份。任何技术都会有其自身的局限性,复制软件可以实现高水平数据保护,发生链路故障或主阵列/辅助阵列处于不可达状态或遭自然或机械灾害损坏时,能够保护数据并及时实现再同步。但是,如果由于源数据的合法操作而导致数据库的失效、无法识别,目标数据的数据库将同样失效。因此,泰坦对数据源采取了数据的冷备份,每周六夜间进行定时的增量备份。该方案提供了人为和应用错误的数据保护。第三是数据的暖备份,即数据库复制技术。完整的数据拷贝保持在灾备中心,更新日志定期由生产中心经由网络传送到灾备中心。
数据容灾建成了,虽然3月份的那次病毒入侵还历历在目,不过,倪克相信这回可以高枕无忧了。
第二次沉没的理由 火灾
就像是老天有意要考验泰坦的容灾一样,泰坦的数据容灾系统建成后,陆续出了几次小事故,一次是服务器突然宕机,还有一次工作人员操作失误将数据删除,启动容灾系统后都基本在24小时内恢复了。这下,倪克非常得意,钱没白花。为此陈默受到倪克的表扬,不受重视的信息中心增光不少。而且陈默还应邀到多家公司介绍经验。泰坦项目也成为存好公司典型案例而大为推广。
一天,陈默在公司楼下的餐厅吃午饭,突然看到外面非常喧闹,很多人惊惶失措地跑来跑去。很快,就有一个人冲进餐厅尖叫,“起火了!”吃饭的人匆匆忙忙丢掉碗筷,跑出餐厅。陈默也跑到外面去看火情。果然,浓浓的黑烟从楼房里面冒出来。不过,这一次的陈默并不是很担心。他有能力让公司的IT系统重新运转起来。陈默甚至认为大火又给了他表现的机会。
消防队来了,大火终于扑灭了。陈默发现,尽管数据在容灾中心完好无损,但是他要重新搭建系统,然后再重新把数据导入到新建的系统中。经过三天三夜的奋战,系统终于恢复了正常工作。而在这三天中,泰坦公司的竞争对手推出优惠促销活动,泰坦六成的客户都投到对手门下。倪克也差点愁白了头。
经过这场事故,泰坦公司大伤元气。但是万幸的是,凭借这几年电信业的快速发展,泰坦公司积累丰厚而没有彻底破产。倪克下了死命令,要求泰坦的容灾中心要在任何情况下,可以让系统在12小时内恢复工作。
陈默再次找来吴忧。吴忧听完陈默的诉苦之后,给陈默指出一条出路——应用级容灾。
在容灾建设中,两个关键的指标是RTO(Recovery Time Objective ,使系统恢复所需要时间)和RPO(Recovery Point Objective,可接受的数据损失程度)。其中RPO代表了当灾难发生时允许丢失的数据量,而RTO则代表了系统恢复的时间。倪克要求在12小时内恢复系统,其实就是对RTO的要求。不同级别的容灾系统有不同的RTO和RPO。数据级别的RTO大于24小时,而应用级别的RTO小于24小时。
泰坦原来建的只是数据级别容灾。这个级别的容灾系统能够满足企业对RPO的要求。 但是该级别灾难恢复时间较长,尽管用户原有数据没有丢失,但是应用会被中断,用户业务也被迫停止。
对于系统需要保持7×24小时连续运行的企业来说,需要高级别的应用容灾系统来满足他们的需求。应用级容灾是在数据级容灾的基础上,不仅把数据复制了一份,而且把应用处理能力也复制了一份。应用级容灾系统可以使企业的多种应用在灾难发生时进行快速切换,确保业务的连续性。
容灾的级别越高,RPO与RTO越小,但是用户需要的投资也越大,业务恢复及操作流程也更复杂,投资成本和维护成本也要增加。
听到这里,陈默犹豫了。建设更高级别的容灾看起来很好,但到底是不是值得呢?泰坦一定要上成本高昂的应用级的容灾吗?
吴忧说,这就需要根据业务间断对企业造成的损失来判断应该用什么级别的容灾系统。在泰坦公司还比较小的时候,相对于应用级容灾的投资,中断一天的业务造成的损失还不算很大,因此数据级别容灾也就够了。但泰坦不断在发展,中断单位时间的业务系统造成的损失增加了,业务中断三天让泰坦损失了百分之六十的客户。这时应用级别容灾的投资就是值得的了。
陈默不敢擅作主张。他把以上情况写了一个可行性报告递交倪克。成本的确是很高,但想到三天损失六成的客户,倪克就没有什么可犹豫的了。他拍板,泰坦要建应用级别容灾系统,要实现12小时系统恢复。