1000+公司业务瘫痪,损失过亿,阿里云故障真正原因竟是这样

2018年6月28日13:35:22 1 2,024 views
本文最后更新于2018年6月28日,已超过 1 年没有更新,如果文章内容或图片资源失效,请留言反馈,我们会及时处理,谢谢!

昨天,技术圈又出了搅动全技术人的一次重大技术故障。记得上一次是携程2015年瘫痪了11小时,损失高达7000W+。

 

阿里云是国内最大的云服务商,服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云保持着良好的运行纪录。6月27日下午,阿里云出现重大技术故障,故障于北京时间2018年6月27日,16:21左右开始,16:50分开始陆续恢复。官方给出的故障时间大概持续30分钟,陆续恢复时间有一个小时多。

1000+公司业务瘫痪,损失过亿,阿里云故障真正原因竟是这样

在6月27日凌晨时分,阿里云给了官方说明,最后官方给出的说明是:“我们在运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题。”引发了大量吐槽。

1000+公司业务瘫痪,损失过亿,阿里云故障真正原因竟是这样

对于此故障的原因,网上传的各种版本都有,传的最多的是以下2个版本:

版本一

1000+公司业务瘫痪,损失过亿,阿里云故障真正原因竟是这样

版本二

1000+公司业务瘫痪,损失过亿,阿里云故障真正原因竟是这样

美团点评运维架构师&马哥教育联合创始人张sir对本次故障解读

“至于实习生误删登陆服务之说,应该是不存在的,一方面,大型互联网公司尤其是阿里云这样的公司,对工程师权限有着极为严格的控制,因为阿里云数十万台服务器,支撑了全国各行各业千亿以上规模的线上业务,不可能让实习生不熟悉的情况下,给予过高的管理权限。这是极其不专业的做法"

”对于版本二的说法,说的比较含糊和笼统,我通过内部了解到原因:”

1000+公司业务瘫痪,损失过亿,阿里云故障真正原因竟是这样

"这个说法跟阿里云官方通告是比较符合的,本次故障的严重程度是非常高的,故障级别定义在S1级别,整个阿里集团的核心业务,以及依托阿里云的公司,很多都受了影响。"

1000+公司业务瘫痪,损失过亿,阿里云故障真正原因竟是这样

"对于企业来说,上线都是开发-测试-上线大致都是以下这样的流程,通常开发会开发出来程序,然后交给测试工程师,测试工程师测试完成后,后提交给运维工程师进行线上服务配置以及业务上线。"

1000+公司业务瘫痪,损失过亿,阿里云故障真正原因竟是这样

“本次故障,阿里官方说明:工程师团队,在上线一次自动化运维新功能的时候,执行了一项变更验证操作,这一项功能在测试环境验证中未出现问题,上线生产环境中,触发了一个未知的bug。这个bug后来通过阿里的同学证实:具体原因是一个核心的应用在拉VIP列表的时候,返回了空列表,这就会导致上千VIP被禁用了。VIP = Virtual IP Address,虚拟IP地址,主要作用为集群的负载均衡的入口地址,可通过一个VIP的地址,实现一组业务的访问,通常也叫集群负载均衡技术。VIP是集群业务的入口,如果数千个VIP被禁用了,可能后端上万台的服务、应用、数据库等将直接无法访问,本次故障盲点,是测试通过了,在生产环境触发了一个未知bug,导致核心应用在拉取VIP列表时,为空了,导致内部的上千台负载均衡不可用,从而后端的应用也不可达。”

1000+公司业务瘫痪,损失过亿,阿里云故障真正原因竟是这样

"如图所示,对于大型互联网公司,运维技术架构都是多层机构。在内部负载均衡上配置的VIP如果不可达的话,后端的service层和数据库等内容,都是不可达的,这也是为什么故障的时候,页面能打开,但是报错为502故障,502错误一般常为后端服务器不可用,这也说明了故障的根源所在。阿里的运维团队故障响应还是比较给力的,数千个VIP配置错误,在半小时内从发现,到定位,到故障排除,以及解决,还是挺快的。”

“在一个庞大复杂的架构体系中,会涉及到成千上万的配置以及几十种技术的应用,有时候可能因为一条配置的错误,会导致整个服务崩盘。而出故障时,一位优秀的运维工程师,可为公司挽回巨大损失。运维工程师目前已经是各家互联网公司必不可少的重要岗位,是要求有极高的技术能力和心理素质(当出现故障时,耽误一分钟损失上百万的时候,那种压力是常人无法理解的),所以这也是,为什么业内优秀的运维工程师是比较稀缺的。一个优秀的运维工程师或者云计算工程师,是需要不断的提升和学习,因为公司的业务需要不断的完善架构体系,保障服务正常运行,以及服务性能和工作效率不断的优化和改进。”

阿里云对于本次故障,还是非常坦诚的:

"对于这次故障没有借口我们不能也不该出现这样的失误我们将认真复盘改进自动化运维技术和发布验证流程敬畏每一行代码敬畏每一份托付。"

 此次阿里云重大故障,网友们纷纷讨论,运维都要背锅啦。其实,运维工程师这个群体,比你想象的要厉害,如果不是他们为互联网的业务保驾护航,可能故障远不止此。所以,对于错误,我们应该包容,错误是成长的必经之路,更何况,人非圣贤孰能无过?

 

本文转载自马哥Linux运维微信公众号

  • 微信小程序
  • 关注微信小程序
  • weinxin
  • 微信公众号
  • 关注微信公众号
  • weinxin
Honest1y

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:1   其中:访客  1   博主  0

    • avatar 小王 4

      666哈