简介特色
b站专栏发布软件不行了?
#B站又崩溃了#b站最近为啥总出故障#人工智能#AI#b站#多合点#台达PLC#台达#台达PLC#台达变频器#知识分享
B站专栏代发排名软文广告精准引流新玩法
相关图片(共1图)
详细内容
b站专栏发布软件不行了?
#B站又崩溃了#b站最近为啥总出故障#人工智能#AI#b站#多合点#台达PLC#台达#台达PLC#台达变频器#知识分享
B站专栏代发排名软文广告精准引流新玩法
b 站崩了,小红书崩了,这捶货手竟然是他,我也绷不住了。大家好,我是程序员百收网SEO。今天上午 10 点到 11 点左右, b 站和小红书都崩了,出现了不同程度的故障,不是大家的网络问题,根据用户的反馈, b 站在崩溃时无法刷新内容和评论区,也发不了评论和弹幕。而且用户的主页消息界面、客服页面都是不可用的,访问某些页面会看到- 500 错误吗?评论区列表也一直显示为加载中,这是什么概念啊?给我的感觉是大半个 b 站基本都崩完了,就很离谱啊。
一般情况下,像 b 站这种大数据量大规模的平台肯定使用了微服务架构,独立部署各个模块,但是这次竟然这么多功能一起崩掉了。那我大胆猜测,应该是公共服务或者底层的基础设施出现了问题,应该不是推出新游戏导致的。那什么是公共服务呢?比如说用户服务,几乎所有面向用户的模块都会调用到用户服务来获取用户信息,那仔细观察可以发现 b 站崩溃的功能也基本都是和用户强相关的啊。比如用户要发送评论,你都不知道是哪个用户,怎么让他发送呢?要看到用户主页,那你都获取不到用户信息,看着毛呢。
b站专栏发布软件不行了?
当然了,以上仅仅是我的猜测啊。这次和 b 站一起崩掉的还有小红书、互安、网恋与申通等等,那这就意味着事情并没有那么简单,绝对不只是 b 站自己的锅。那根据网上的信息,真正的罪魁祸首果然是基础设施阿里云的网络访问出现了问题,北京时间 2024 年7月2日 10: 04,也就是 b 站崩掉的时候,阿里云发现上海地域的可用区 n 网络访问出现了异常。不过很快阿里云就完成了网络切流调度,毕竟很快恢复了上海可用区 n 的网络。过了一段时间后,崩掉的 b 站等系统也都开始陆续恢复。
那先解释一下什么是可用区? n 网络可用区是指在同一地域内电力和网络都相对独立的物理区域,例如华北二。北京地域支持 12 个可用区,包括北京可用区、ABC、 AD 等等。同一转用区内实例之间的网络延迟更小,用户访问速度也会更快。而 b 站和小红书的总部又正好都在上海,所以选择了阿里云的上海可用区,提高网络访问的速度啊。这很合理,然后给他们提供服务的阿里云的上海地域的网络又出了问题,就导致他们崩掉了,这再合理不过了呀。网络访问异常的后果想必大家都经历过,比如你家里的网络中断时就没有办法访问网站。而同样的依赖网络去传输数据的 b 站,一旦网络中断,各种依赖该网络的 API 服务调用也都会故障,这导致无法获取到展示给用户的数据。事实上,哪怕是阿里云网络故障这类事件也是无法完全避免的,举着极端的例子,因为一些气象原因,或者有着不法分子把网线铲断了,都可能会导致网络故障。不过阿里云通过划分可用区,起码保证了这个故障不会影响到多个地域,而且通过网络切流调度,快速的将系统切换到另一个可用网络,这个解决速度也还算高效。
b站专栏发布软件不行了?
那通过这次的故障我们能够了解到大厂工程师应对此类问题的解决方案,像 b 站和小红书其实都采用了服务降级的策略,比如 b 站的做法是提供出一个加载出错的页面,或者加载中引导用户等会再重试。那虽然有一些降级的页面不够优雅,比如说把这个错误码和英文的报错信息也返回给了用户,那小红书的策略就不太一样,故障的表现是没有办法刷新内容,而且首页刷出来的不是用户的推荐内容,但用户还是能够看到一些内容的。那我猜测小红书应该是使用了缓存作为降级策略,比如没有办法通过网络获取到用户推荐的信息流,那么就从分布式缓存或者服务器本地的缓存中获取到一些默认内容就可以了啊。当然还有一种可能就是压根没走缓存,而是改为调用获取其他信息流的服务。那举个例子,假如说小红书的热门版块儿没有故障,那么 APP 主页就可以获取热门版块儿的数据,而不用获取故障的推荐信息流。这就让我想起来了,之前我在腾讯的时候,导师跟我说过,不要信任任何第三方服务,也就是说我们要遵循防御性编程,就假设这个第三方系统它一定会出现故障,并且提前要做好应对它的准备。那比如我使用了叉叉云的数据同步,那即使官方承诺说同步并不会出现数据丢失,我们也要考虑到数据丢失的可能性,并且在业务代码中编写对应的策略。
虽然本次故障无法预料,但是对于 b 站这样的大型公司来说,我觉得应该还是有应对之法的,比如将服务跨可用区部署,不止将服务部署在阿里云可用区, n 网络还可以部署在上海的其他可用区啊。而且还可以采用多云部署,同时将服务部署在其他的云服务提供商啊。
b站专栏发布软件不行了?
发现阿里云机了,那就自动切换到其他服务商,甚至还可以采用异地多活,在不同的地理位置同时运行同一个服务,从而提高可用性和容灾能力啊。当然了,理论归理论, b 站可能也用到了这些策略,或者他也有自己不用这些策略的原因,那比如说你多部署一套服务,还有什么异地多活,对吧?那就要多一份的成本,那毕竟我也不是内部人士,主要是借助这个话题蹭着热点,跟大家随便聊聊,也给大家科普一些开发相关的知识,那相信不久之后官方也会发布事故复盘的报告了。
来源:百收网
城市标签:#昭通市# #永善县# #搜索推广#