IBM大型机宕机长达四小时,稳定安全成空话training.mypm.net
据悉,12月15日下午,中国银行采用的IBM大型机在运行过程中突然宕机,时间长达4个小时。作为微博消息,这或许仅仅引起了IT行业的内部关注,但是从所应用的业务来说,却造成了严重的问题。甚至就连中国银行信用卡中心的官方微博也不得不出面澄清此事带来的负面影响。
大型机一直给人以“稳定、安全”的概念,事实上这也正是IBM在宣传时所特意强调的,但本次大型机的宕机无异于对这种说法进行了驳斥。作为单机系统来说,无论设计得如何精妙,维护得如何稳定,都不可能保证100%的无宕机。其实这已经并不是金融行业第一次出现大型机宕机的事情了,早在2010年新加坡的星辰银行和2011年的美国银行都出现过大型机宕机的事件,而由于大型机都是用在银行、通信这样的关键领域,一旦宕机就会关系到诸多用户的金融安全问题。工程项目管理软件
对于关键业务来说,降低故障率是厂商永恒的追求,而在服务器中,大型机的安全性也是首屈一指。虽然所有服务器都号称可以实现7*24小时运行,但也不免会出现一些故障,这是人之常情。而对于银行来说,这样的关键业务没有在第一时间采用应急方案,或者说应急预案没有在第一时间奏效,造成了长达4小时的故障,这本身就是一个非常严重的错误。
具体说来,针对关键业务——就是指企业和机构中那些不能在运行中出现间断的核心应用,特别是政府、国防、安全、电信、金融、交通、医疗等关系到国计民生的行业中企业和机构所运行的这类应用,在实际应用中提出了RAS要求——可靠性(Reliability)、可用性(Availability)和可服务性(Serviceability)。工程项目管理软件文章
IBM宕机损失惨重,服务器每年非计划停机不超5分钟bbs.mypm.net
或许有些网友对于本次宕机的严重性还不清楚,因为在日常生活中我们使用的电脑也会出现宕机的事情。但是电脑宕机,最多只影响个人的应用体验,大型机特别是负责关键业务的大型机宕机,性质就要严重得多,带来的损失也更大得多。我们可以听听行业内的专家和专业架构对于关键业务宕机是如何看待的。
中国银行业监督管理委员会业务创新监管协作部副主任王岩岫曾经表示——如果银行系统中断1小时,将直接影响该行的基本支付业务;中断1天,将对其声誉造成极大伤害;中断2-3天以上不能恢复,将直接危及其他银行乃至整个金融系统的稳定。而调研机构Qualix Group曾有一组数字说明不同行业关键业务中断带来的金钱损失:服务器宕机1分钟,平均会使运输业损失15万美元,银行业损失27万美元,通信业损失35万美元,制造业损失42万美元,证券业损失45万美元……这也从直接经济效益的角度解释了关键业务平台对于稳定性和可靠性的要求。training.mypm.net
因此对于以上行业的关键业务来说,都需要遵循“5个9”(99.999)、“6个9”(99.9999%)甚至“7个9”(99.99999%)的标准来加以评估,而这些标准代表的,就是一台服务器每年的非计划停机时间分别只有5分钟、30秒和3秒钟。由此我们可以想象本次4小时宕机的时间是多么漫长,所造成的损失又是多么巨大。training.mypm.net
两地三中心备份成摆设,容灾系统未启用是技术故障还是心理压力?
两地三中心组网示意图转自工程项目管理软件
在本次宕机事件中,网友们热烈讨论的就是为什么系统没有在第一时间切换到备份服务器,一般说来备份分为本地和异地备份两部分,也是许多数据中心都在应用的模型。在金融行业中,通行一种名为“两地三中心”容灾备份系统的概念,许多银行也都在采用这样的备份模式。但是从这次宕机的结果来看,备份系统并没有起到丝毫的作用。