聊聊支付宝的重大事故
2025年1月16日下午,支付宝发生了一起P0级别的重大事故,短短二十几分钟内,所有订单价格异常享受了政府补贴,打了八折。这一事件迅速引发了广泛关注。 16号下午两点40分到45分,支付宝出了一次P0级别的重大事故,这个时间段所有订单的价格都享受了政府补贴,打了八折。支付宝这么大体量的公司,影响面一定特别广,涉及的金额也会非常大。 一、这么大的公司也会出问题? 越大的公司,商城体系就会越复杂,各个模块错综交互,哪一个分支场景没有测试到位,就很容易出问题。 一般的大厂,功能上线需要经历: 1.产品方案设计,审视方案有无业务场景的漏洞,各个模块的区分是否合理 2.架构师从技术架构梳理,如果识别产品经理的方案不合理,还要重新调整方案 3.测试评审,一般答应的项目,还会有解决方案测试,多方串联,保证各个项目细节能够知悉到位 4.灰度上线,大功能一般需要灰度个几周,没有太多的异常反馈后才能全量上线 以上的流程任何一个步骤没有做到位,都很容易出现问题。 大公司的流程一般都很完善,但并不代表大公司就不会出问题。 很多项目还是需要人的参与,是人都有七情六欲,比如稍微测试不周全,问题就出现了。 当然,相比小公司,大公司这块做的还是不错的。 体现在:五分钟就把问题处理掉了 二、为什么问题处理这么快? 五分钟,什么概念? 发现问题到定位问题,随随便便都不止五分钟,可是支付宝五分钟就处理完了,这背后是非常强大的风险管理机制在支撑。 我在前公司,一旦遇到现网问题,从运维的同事接收信息,到处理完毕,需要在15分钟内解决,不然就是大事故,要扣绩效。 因为这个规则,运维团队的配置,24小时的轮值监控,产品经理轮值监控,开发测试人员的轮值,确保在出现异常的时候,能够最快速度联系到人,最快速定位到问题,及时解决问题。 五分钟应该是处理问题的天花板了,向支付宝致敬,每一个风控体系的完善,少不了那么多运维团队的辛勤付出。 很多小公司,别说五分钟了,可能一旦出现问题,自己人都没有发现,还要等着用户来主动反馈,而用户的主动反馈有些时候还视而不见,即使知道了,还要从家里赶到公司,再定位问题,联系各个产品经理、开发、测试,不断定位问题,这样一来一回,估计一天就过去了。 记得印象很深的一次,618开门红时候,有将近一个小时下不了单,损失惨重。后来有将近一个月的时间,所有的研发团队都在做技术重构,1000多人的团队,就只做一件事,可想而知影响面有多大。 支付宝还有一个更牛的,出问题的当天晚上,就把钱要回来了。每个下单的,都绑定了支付宝账号,天时地利人和都占据了,再一次把损失降到最低。 做电商的,危机意识太重要了,因为是和钱打交道的,一点点问题,就有可能给公司带来直接的经济损失,而且甚至不可弥补。 警钟长鸣 本文由人人都是产品经理作者【蔡锦海】,微信公众号:【锦海说】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。 题图来自Unsplash,基于 CC0 协议。
2025年1月16日下午,支付宝发生了一起P0级别的重大事故,短短二十几分钟内,所有订单价格异常享受了政府补贴,打了八折。这一事件迅速引发了广泛关注。
16号下午两点40分到45分,支付宝出了一次P0级别的重大事故,这个时间段所有订单的价格都享受了政府补贴,打了八折。支付宝这么大体量的公司,影响面一定特别广,涉及的金额也会非常大。
一、这么大的公司也会出问题?
越大的公司,商城体系就会越复杂,各个模块错综交互,哪一个分支场景没有测试到位,就很容易出问题。
一般的大厂,功能上线需要经历:
1.产品方案设计,审视方案有无业务场景的漏洞,各个模块的区分是否合理
2.架构师从技术架构梳理,如果识别产品经理的方案不合理,还要重新调整方案
3.测试评审,一般答应的项目,还会有解决方案测试,多方串联,保证各个项目细节能够知悉到位
4.灰度上线,大功能一般需要灰度个几周,没有太多的异常反馈后才能全量上线
以上的流程任何一个步骤没有做到位,都很容易出现问题。
大公司的流程一般都很完善,但并不代表大公司就不会出问题。
很多项目还是需要人的参与,是人都有七情六欲,比如稍微测试不周全,问题就出现了。
当然,相比小公司,大公司这块做的还是不错的。
体现在:五分钟就把问题处理掉了
二、为什么问题处理这么快?
五分钟,什么概念?
发现问题到定位问题,随随便便都不止五分钟,可是支付宝五分钟就处理完了,这背后是非常强大的风险管理机制在支撑。
我在前公司,一旦遇到现网问题,从运维的同事接收信息,到处理完毕,需要在15分钟内解决,不然就是大事故,要扣绩效。
因为这个规则,运维团队的配置,24小时的轮值监控,产品经理轮值监控,开发测试人员的轮值,确保在出现异常的时候,能够最快速度联系到人,最快速定位到问题,及时解决问题。
五分钟应该是处理问题的天花板了,向支付宝致敬,每一个风控体系的完善,少不了那么多运维团队的辛勤付出。
很多小公司,别说五分钟了,可能一旦出现问题,自己人都没有发现,还要等着用户来主动反馈,而用户的主动反馈有些时候还视而不见,即使知道了,还要从家里赶到公司,再定位问题,联系各个产品经理、开发、测试,不断定位问题,这样一来一回,估计一天就过去了。
记得印象很深的一次,618开门红时候,有将近一个小时下不了单,损失惨重。后来有将近一个月的时间,所有的研发团队都在做技术重构,1000多人的团队,就只做一件事,可想而知影响面有多大。
支付宝还有一个更牛的,出问题的当天晚上,就把钱要回来了。每个下单的,都绑定了支付宝账号,天时地利人和都占据了,再一次把损失降到最低。
做电商的,危机意识太重要了,因为是和钱打交道的,一点点问题,就有可能给公司带来直接的经济损失,而且甚至不可弥补。
警钟长鸣
本文由人人都是产品经理作者【蔡锦海】,微信公众号:【锦海说】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
你的反应是什么?