这两周,中国云计算的圈子一直聚焦一件事情:因技术与服务问题,4月27日《大掌门》开发商玩蟹科技CEO叶凯在微博上炮轰阿里云,跟帖吐槽者不少,围观者亦多,博客园的翔实日记类记录被迅速挖了出来,甚至阿里云迁移方案也出现了数种。对此,阿里云第一时间在微博回复叶凯希望私下沟通,但未获得有效回复后,保持了“沉默”。直到阿里云总裁王坚来到北京,5月6日与叶凯见面达成和解,并“进一步深度合作”。这个事件看似不大,但在中国云计算高速成长的关键点上,意义非同一般。虽然这类事件在美国云计算市场屡见不鲜,但这次,是在国内,就在我们的圈子中。为此,CSDN云计算频道特别采访了叶凯,博客园CEO杜勇,Ucloud CEO季昕华,并在5月7日面对面专访了王坚。以此事件为因,聚合云计算典型用户和云计算服务提供商,探讨云生态系统构建的迫切和可能性之果。
前因
叶凯:吐槽故障与服务
在美国云计算应用高潮迭起的示范下,创业企业对云计算平台的认知度和使用度达到了新层次,而暴漏的问题也更多。比如频道2月报道的《 响应高达6秒 用户揭露Heroku私自修改路由造成高支出》,Rap Genius的James Somers炮轰Heroku私自修改路由,目前集体诉讼律师已经介入;再如3月报道的《 AWS“山寨”技术伙伴创意与产品,是自我完善还是杀鸡取卵?》所谈到的AWS“山寨”技术合作伙伴产品,如Newvem(云优化企业),Zencoder(视频代码转换器),Rightscale(为AWS,Rackspace,HP Cloud提供跨平台云监控、 警报和管理服务)、Cloudyn、Cloudability等。而相对平静的国内云计算,正处在快速发展阶段,虽然零星有些信息,比如《 又是备案惹的祸?盛大云主机停机4天数据删除引开发者热议》,但并未有足够代表性。直到阿里云近日在微博做的“我与阿里云的故事”主题活动引出了叶凯,漩涡开始浮出水面。
事件回放:4月27日11:04 @叶凯Kevin:我们在阿里云上用了20多台。半年时间,出现过1次所有机器全部断电,2次多台硬盘突然只读,3次硬盘IO突然变满(给的解释是同台物理机上的其他虚拟机和我们抢资源),1次客服不通知直接重启。10次以上运维不响应,电话从没五分钟内接通过。已准备陆续迁出所有机器。
叶凯的愤怒溢于言表。而在随后事件发酵中,又有多位业内应用云计算平台的用户提出了类似的问题:比如由于网络不稳定提出赔偿方案但却不了了之的@郑瑞生,感觉客服响应确实很糟糕的@郑敦煌瞎胡搞V,遭遇RDS数据库挂了的@喳喳鸟zzbird和无法访问内网SLB的@JumpingQu,,还有博客园。几乎所有问题都集中在技术和服务两个方面。这也在记者采访叶凯时得到了印证:
“他们只是让我们改架构来适应他们的缺陷,但我们的服务正常运营其它云和IDC上。我们当然自己一直在优化自己的架构,主要是我们在其它的云平台和IDC物理机都跑的好好的,但他们从来不正视自己的缺陷,不说要解决自己的问题,只是推卸责任,产品和服务都跟不上,态度还不好,这个比较要命。而且故障出的频次太高。收购万网后,人也比较乱。过来的人也不知道是谁,也不清楚自己负责哪一块。感觉他们并不重视这块业务的发展。”
如果叶凯所说的是问题集中爆发的话,那么博客园的日志记录就更为连续和写实。
发酵
博客园:用日志记录的问题与方案
博客园能代表云计算应用中颇具潜力的一类用户,网站。而自从他们迁移到阿里云平台后,每一次问题其CEO杜勇都按照博客日记的方式记录了下来。其中Request.UserHostAddress记录IP地址问题,解决images.cnblogs.com响应速度慢的诡异问题,数据库写入超时的问题及解决方案,为什么memcached会堵车等等经验,对其他云端用户而言,很有参考价值。
但事实也如博客园的读者所说的,从去年底准备迁移阿里云到现在,出现的问题确实不少。在与杜勇沟通中,他们认为技术才是根本制约,服务值得肯定。
CSDN:看到你们的系列文章,很有感触。感觉最痛苦的问题是什么?
杜勇:云服务器磁盘I/O不稳定。我们开始用的是云服务器跑数据库,当时磁盘I/O稳定时,跑得很好;后来由于磁盘IO问题引起了几次数据库服务器故障。而我们的搜索产品到现在还被云服务器磁盘I/O问题困扰。
CSDN:是什么原因造成问题频频发生?
杜勇:对用户的实际应用场景考虑不周,比如用户占用的资源之间未进行有效隔离;对系统的稳定性重视不够。
CSDN:是否遇到服务质量差(运维不响应、电话不通)等问题?你对阿里云的服务如何看?
杜勇:没有遇到过没有响应的情况,目前最值得肯定的就是阿里云的服务,通过阿里云的服务我们感觉到的是他们在努力解决问题,不是敷衍了事。
CSDN:从托管到使用云平台,博客园最突出感受是什么?
杜勇:拥有了可以随时扩展计算能力的自由,想加服务器就加服务器,想减服务器就减服务器,这种感觉很美妙。
CSDN:如果有机会与阿里云王坚面对面沟通,你会问什么?对阿里云的建议是什么?
杜勇:会问:阿里云的虚拟化技术在业内究竟处于什么样的水平?
对阿里云的建议:稳定大于一切,因为云上成千上万的网站服务着成万上亿的用户;把产品做好,阿里云网站在用户体验上真的很糟糕。
CSDN:AWS,Heroku也经常出问题,国内外的区别是什么?你对整个云生态系统怎么看?对国内建设云生态系统的建议是什么?
杜勇:只要出问题影响到了用户,国内外没区别,只能说明技术不成熟;为什么发电厂出故障不能发电,我们却可以正常用上电?我对云生态系统的理解不深,我只是觉得云服务商是关键角色。只要云服务商每天上班第一件事就是想着要像电网、自来水公司那样不出半点问题,就是云计算开始普及的时刻。
CSDN:有网友建议从阿里云迁出?是否有计划来迁出?
杜勇:我们只会根据自己的实际使用体验进行评估。没有从阿里云迁出,是因为我们相信阿里云能解决我们遇到的问题。我们也不希望迁出,我想任何一位云平台用户的迁出都不是计划出来的,而是被逼出来的。
这显然与围观网友对技术和运维方面的分析相契合:
@架构师Jack:公有云需要的知识除了分布式文件系统还有网络部署规划能力。“2次多台硬盘突然只读”说明阿里云的分布式文件系统在硬盘故障处理时可靠性设计还不够精细。“3次硬盘IO突然变满”说明其文件系统还缺乏足够的IO的Qos机制设计。这些都说明阿里云在存储子系统的可靠性设计/性能设计和测试能力还有待提高。@运维老周:无论云服务器说的多神,抢占资源是避免不了,基础都是虚拟化,关键看谁的监控机制,动态迁移,扩展,自动化能力做的好,以及自主管理平台是否完善。路还很长,前期会节省资金和人力,但问题绝对不会比自己托管硬件少。
而最实在的一句话,道出了云计算平台用户的心声,迁移,本身也困难。
建议
迁移,是继续迁往云还是回归IDC托管?
随着云计算服务的普及,这样的问题屡见不鲜。但无论是国外还是国内,给出的解决方案似乎只有一种,迁移。比如有网友建议叶凯迁移到UCloud、杭州网银的Linkcloud、品高、托管机房、qcloud和又拍(静态文件存储和CDN加速)上,也有网友建议还是回归传统IDC托管服务。
但后者显然声音更小。尽管目前确实相当多的企业走的是“混合云”的路线,但是一旦尝试了快速部署与灵活资源配置的云计算的“甜头”之后,愿意再次回归者寥寥无几。
而前者,作为呼声最高的迁移对象,记者对Ucloud CEO季昕华也进行了采访。他认为:
这是云计算产业的必经之路。“用户对于产品的稳定性和服务的专业性是最为关心的,因此云计算要在这方面重点加强,且需要更多底层核心研发和运维高手的贡献。我们云计算产业目前处于初级阶段,还需要大家一起努力,把行业做好做大。云计算自身也要更重视产品和技术支持,确保业务的稳定。建议CSDN可以组织一些专家介绍如何更好地使用云计算。我们UCloud会以更加稳定的产品和服务支持中国的创业团队。”
事实上,云计算平台的稳定性和服务能力一直饱受争议,无论是美国还是中国。
但同样的,也有一些云计算典型用户在使用云计算服务的时候,开发并开源分享了十分有帮助的技术与应用。季昕华所说的“专家”,有一类就是如同AWS上如同Netflix、Instagram一样的,不仅是云用户,同样也是生态系统中重要的一环,甚至直接填补了AWS服务短板的企业。比如Netflix所开源的如Janitor Monkey(云计算管理工具),Eureka(载均衡服务)等,已帮助若干企业更好地使用AWS。