数据来源:阿里云云产品控制台服务异常
尊敬的客户: 您好!北京时间2023年11月12日 17:44起,阿里云监控发现云产品控制台访问及API调用出现异常,阿里云工程师正在紧急介入排查。非常抱歉给您的使用带来不便,若有任何问题,请随时联系我们。
--进展更新 17:50 阿里云已确认故障原因与某个底层服务组件有关,工程师正在紧急处理中。
18:54 经过工程师处理,杭州、北京等地域控制台及API服务已恢复,其他地域控制台服务逐步恢复中。
19:20 工程师通过分批重启组件服务,绝大部分地域控制台及API服务已恢复。
19:43 异常管控服务组件均已完成重启,除个别云产品(如消息队列MQ、消息服务MNS)仍需处理,其余云产品控制台及API服务已恢复。
20:12 北京、杭州等地域消息队列MQ已完成重启,其余地域逐步恢复中。
21:11 受影响云产品均已恢复,因故障影响部分云产品的数据(如监控、账单等)可能存在延迟推送情况,不影响业务运行。
阿里云对外公开故障不同时间线处理流程截图
从上面两张图我们能看到故障状态,由“处理中”到“已恢复”,所以大家从这个图能很清晰的知道当前故障所处的状态。
从阿里云给出的对外故障公告来看,故障持续三个半小时,从大批量重启基础组件来看面肯定不会小。
故障时间长:从阿里云给出的对外故障公告来看,故障持续3.5小时
产品影响面大:网上用户反馈如下,影响阿里自家的服务:淘宝、钉钉、云盘、语雀、饿了么、咸鱼等,影响了使用阿里云产品的客户:瑞幸、蜜雪冰城、虎牙、京东、人人等。
赔偿款估计不小:服务稳定性和资损都影响巨大,后续还会有客户SLA不达标、客户资损等赔偿,赔偿款估计也不小。
影响地域广:从下面截图来看,影响了N多可用区和N多Region
长远影响:给用户多云或迁云埋下种子。
当时故障截图:
以下原因是作者猜测,具体原因以官网为准
从产品网盘、OSS不可用,机房多Region受影响,应该是一个全球都在用的基础服务出问题。
可能的方向有:存储、网络、鉴权服务
存储、网络一般来说都是SET化部署或可用区部署,即使有问题也不会影响全球,排除。
那很可能是鉴权服务出问题了,OSS和消息队列对鉴权服务依赖较大,而且全球都在用。
具体是什么导致鉴权服务出问题,那就不得而知了,反正是猜测。
昨天刚写过一篇故障定级定责大家可以参考一下。
故障级别评定:P1 最高故障级别
Copyright© 2013-2020
All Rights Reserved 京ICP备2023019179号-8