6月底的一场风暴袭击美国弗吉尼亚北部,致使超过350万人失去了电力供应,而亚马逊位于弗吉尼亚的US-East-1数据中心也随之瘫痪,由于数据中心停止运行,亚马逊的云服务Amazon Web Services也因此一度中断服务。此次亚马逊云服务中断事件再次引发了对于云服务的可靠性的疑虑,并且一家网站还因此而放弃了亚马逊的云服务。
亚马逊的云服务Amazon Web Services属于基础设施即服务,作为业界数一数二的云服务提供商,亚马逊云有许多客户,此次风暴致使Amazon Web Services中断,不可避免的使得一些运行在其中的网站或是业务中断。
Netflix,Pinterest,Instagram,Heroku,这些利用亚马逊的基础设施云服务运行业务的公司,都传出消息出现中断服务,其原因正是AWS 数据中心由于风暴而电力中断。
为亚马逊US-East-1数据中心所在的弗吉尼亚州提供电力的Dominion Virginia公司在声明中表示,90万个家庭因为风暴而电力中断。导致亚马逊数据中心电力中断的这场风暴时速达80英里每小时,并且伴随着闪电,风暴刮倒的大树压断了电线,引发弗吉尼亚州北部的电力中断。
亚马逊数据中心所处的弗吉尼亚北部是此次风暴的重灾区,直到风暴的第二天下午,总共83万2千人中还有38万5千人没有电力供应。
至于Amazon Web Services的数据中心的电力情况,有消息称断电9分钟就恢复了,不过其云服务就没有那么快恢复了。亚马逊有一个专门公布其云计算服务的运行状况的网站,名为Amazon Web Services健康公示板,在其中我们可以查看亚马逊云服务的运行状况记录。
根据Amazon Web Services健康状况公示,亚马逊云计算服务Elastic Compute Cloud (EC2)在6月29号晚上8点21的时候开始出现连接问题,8点40的时候,亚马逊官方宣布风暴而致使亚马逊数据中心电力中断,不过9分钟之后,电力得到恢复,亚马逊就开始重新启动EC2云服务,并且更新相关数据。
到晚上11点19分,半数以上的EC2用户和三分之一的相关数据得到恢复。但是 Elastic Load Balancers和Elastic Block Storage受到的影响,需要更多的时间来维修,30日10点25,亚马逊宣布大部分受到影响的EC2用户,由于没有使用EBS硬盘,其服务已经得到恢复了正常,不过那些使用EBS硬盘的客户就没有那么幸运了。
云搜索和相关数据服务也由于电力中断而受到了影响到30号早上,这些服务的的大部分用户已经恢复了使用。
对已此次亚马逊云服务宕机的时间,有关专家指出,考虑云计算的可靠性,采用过云计算的IT企业下一笔预算很可能是将自己的业务放到多家云服务提供商中,据悉,近期谷歌、微软都推出或是更新了基础设施即服务类型的云服务。
云计算的可靠性隐患
对于云计算,亚马逊Amazon Web Services的EC2云服务的用户Okta有一个说法,建成云平台,客户会来,建好云平台,客户会留下。Okta是一个用户身份管理服务商,虽然亚马逊的EC2服务因为风暴导致电力中断而宕机,但是Okta是将他的业务建立在多个云平台之上,因此Okta的服务没有经历过一次宕机。
但是对于亚马逊云服务另外一个用户来说,情况就不是这样了,一个网上约会网站Whatsyourprice.com,类似于现在中国的婚恋网站,其使用亚马逊两个云服务平台建立自己的业务。此次电力中断导致其运行在亚马逊云平台的业务中断,Whatsyourprice.com收到了其顾客的上千条投诉,Whatsyourprice.com的首席执行官Brandon Wade在一次接受采访时表示,这是Whatsyourprice.com开业以来从未遇到过的情况。
Instagram、Quora、Heroku、Pinterest, Hootsuite以及Netflix等的用户也在网上或是Twitter中抱怨服务中断。
对于Whatsyourprice.com来说,此次风暴导致两个小时的业务中断成为了压死骆驼的最后一根稻草,早在6月14号的时候,Whatsyourprice.com就经历过一次2个小时的业务中断,那一次是因为短时间内的大量的用户活动导致服务器不堪重负。
Wade,这位Whatsyourprice.com的CEO,并没有等到亚马逊的官方事故分析或是咨询师的分析,就已经把他的系统,在亚马逊基础设施云服务运行的10台虚拟服务器,转移到了拉斯维加斯的代理主机上,Whatsyourprice.com的总部就是在拉斯维加斯。
Wade表示:“亚马逊是一个名誉非常好的公司,但是我们不能有这些业务中断,对于我们来说,(业务的连续性)是至关重要的。”
Whatsyourprice.com还将会在拉斯维加斯寻找第二个代理主机,这样即使在一处的主机出现故障,他的业务也不会下线。这就是Wade在亚马逊云服务所需要的架构上的物理实现。》
如何提高云计算可靠性
Wade的公司曾经采用的是位于Ashburn的亚马逊US-East-1数据中心的两个服务平台,每个服务平台都有自己的网络和电力系统,来保障即使一个服务平台中的,而另外一个还能保持业务的连续性。
对于此次亚马逊云服务中断导致Whatsyourprice.com的业务下线,Wade在一封邮件中表示,在亚马逊云服务中断期间,他的IT管理人员不能在未收风暴断电影响而正常运行的服务平台上安装新的应用。并且在这期间,他也不能讲大量的数据转移备份。因此,即使只有一个服务平台出现故障,一些AWS云服务软件的不能预见的其它问题,会使得他们的网站业务中断。
Wade还表示,6月份的两次亚马逊云服务中断都导致了Whatsyourprice.com整个网站的瘫痪。
Whatsyourprice.com的案例印证了Okta对于云服务平台的说法,“建成云平台,客户会来,建好云平台,客户会留下” 。
Okta同样经历了6月14号以及19号的亚马逊云服务中断的事件,但是其业务却没有下线中止。Okta声称他的在线用户管理系统完全值得依赖因为它是真正的零宕机架构。
Eric Berg,Okta的产品经理表示,任何单一独立的平台都会有可能宕机,Eric Berg表示有必要自己保证业务的可靠性,因为顾客和客户不能容忍宕机,因此Okta才会在采用亚马逊云服务的同时还采用其他云服务。
不仅仅是亚马逊云服务,其他的云计算服务也会不可避免的出现宕机。服务提供商必需使得自己的服务在云计算平台宕机时还能继续运行其服务业务。
Whatsyourprice.com的首席执行官Wade表示,不同于你今天错过电影可以明天再看,约会是需要正确的人和正确的时间,如果一个在线约会服务瘫痪,客户也许就会失去见生命
中另外一半的机会。
Wade还表示,Whatsyourprice.com将不会再使用亚马逊的EC2云服务,因为它的数据中心时不时的出现问题。
全文总结:
当云计算越来越受关注是,其隐患也就越来越显现在人们面前。是否具有高可靠性是公司在选择云计算服务提供商首先考虑的问题,但是需要指出的是,宕机是不可避免的问题,一个系统再怎么可靠100%的运行时间是难以保证的。云计算服务宕机的问题之所以被大家重视,是因为云服务上面有着诸多企业的业务。影响着诸多用户和客户。对于可靠性的要求,就像一句俗语将的一样,不要把鸡蛋都放在一个篮子里面。预算允许的话,同时选择多家云服务可以降低业务中断的可能性。