核心流程处理到一半,服务器崩溃了,怎么处理

这里同时存在三个问题:

1.问题排查以及快速恢复 2.异常数据修复 3.服务高可用,规避服务宕机

先抢通业务

  当发现服务器宕机后,最关键的是抢通业务,而不是抢修服务器。因此,需要做应急方案。最好准备2个网站服务器,他们存放的内容相同,而ip不同,并且机房的地理位置不同。这样第一时间发现宕机问题后,可以迅速的通过修域名记录,指向目前正常的网站空间。而且2个主机,同时宕机的可能性就大大降低了。

服务器崩溃问题定位

1.内存溢出,磁盘资源耗尽 2.线程死锁,进程过多或者不断创建,耗尽资源导致 3.数据库慢查询,连接数过多,临时表不够用,程序死锁 4.主备数据不一致 5.应用程序异常 6.流量负载过大 7.DOSS攻击 8.散热问题

异常数据修复

1.写数据做事务控制,保障数据安全。 2.磁盘备份,重启服务时恢复数据。 3.记录关键日志。

服务高可用

1.服务多实例集群部署,负载均衡策略访问,做好服务降级、服务限流。 2.数据库读写分离、分库分表方案。 3.做好服务性能测试、压力测试。(如何规避服务器宕机风险:)

经验分享 程序员 微信小程序 职场和发展