查看原文
其他

滴滴P0级事故始末,为何今年大厂崩得这么多

大白 中生代技术
2024-08-23

‍‍        

 

语雀崩,阿里云崩,淘宝崩,咸鱼崩,钉钉崩...

这几天,滴滴崩了又上了热搜,不少打工人因为打不开滴滴导致上班迟到,错失航班等;

有网友反馈,滴滴打车车子未到,司机电话说到了。22:50 尝试访问,依然502,搜索失败,之后不断尝试...... 依旧是502错误。

从员工的各方反馈看,本次滴滴系统崩溃属于全面瘫痪。不仅用户端无法正常使用,司机端以及滴滴内网同样出现了问题。

滴滴没有给出故障的具体原因,所以一些人猜测,故障是能是在底层的基础设施上。因为打车、共享单车等服务全面崩溃,不同的业务板块之间应该是有隔离的,说明问题出在更加底层的基础设施。“攻击者一般只能访问到应用层,基础设施访问不到的。要么是被攻击者打穿,要么是自己系统操作不慎挂了。即便是前者,也算是一种系统缺陷,才会被打穿。”

同时,对于滴滴系统故障的原因也有其他各种猜测。有互联网从业者在社交平台爆料称,是滴滴系统半夜被攻击所致。

“服务器没有物理隔离,物理攻击后台服务全挂,dc都上不去。”从表现上看,打车、共享单车全挂,不同的业务板块之间应该是有隔离的,说明问题出在更加底层的基础设施。从全线产品线出问题来看,可能是数据库批量挂掉,恢复数据完成时间不可控。当然,也有可能是系统升级导致基础架构崩溃,比如云平台崩溃,问题难定位。

对此,业内专家表示,这种全网性业务全阻可能是由多个因素共同作用所导致的结果。否则,在当前的IT系统中,尤其是已经云化部署的IT系统,由于其去中心化的特性,全业务阻断的风险应该是相对较小的。

也有业内人士表示,出问题的应该是滴滴自己的IDC,这种事故也会加速滴滴全部上云的步伐。

业内人士经验表示,80%以上的故障都是变更导致的。技术人员一方面期待得到故障原因的披露,一方面也明白,其他人能从故障中汲取的教训往往有限。一起大型故障往往是多个层面失守叠加的影响,导致整体防线被击穿。

滴滴本次事故事件超过12个小时,损失金额超4亿元,属于业界内公认的P0级故障,截止到本文发表,滴滴大部分服务已经恢复

据业内专家分析,一般大规模的系统崩溃,无外乎以下几个原因

一是系统升级失败,在测试没有覆盖到的情况下上线;

二是服务器故障,遇到天灾人祸等;

三是第三方服务故障,用了三方组件,组件挂了导致服务失效;

四是遇到黑客攻击,脱库等。

目前看起来,第一二种可能性较大;希望滴滴好好总结,把底层服务做好吧;

最后推荐一下AI时代来临的入门课,程序员大佬小灰出品的AI学习手册

继续滑动看下一个
中生代技术
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存