互联网架构高可用
1 什么是高可用
高可用HA(High Availability)是分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计减少系统不能提供服务的时间。假设系统一直能够提供服务,我们说系统的可用性是100%,如果系统每运行100个时间单位,会有1个时间单位无法提供服务,我们说系统的可用性是99%。很多公司的高可用目标是4个9,也就是99.99%,这就意味着系统的年停机时间为8.76个小时。百度的搜索首页,是业内公认高可用保障非常出色的系统,甚至人们会通过www.baidu.com 能不能访问来判断“网络的连通性”,百度高可用的服务让人留下"网络通畅,百度就能访问","百度打不开,应该是网络连不上"的印象,这其实是对百度HA最高的褒奖。
2 如何保障高可用
我们都知道,单点是系统高可用的大敌,应该尽量在系统设计的过程中避免单点。方法论上,高可用保证的原则是集群化,或者叫冗余:只有一个单点,挂了服务会受影响;如果有冗余备份,挂了还有其他backup能够顶上。
保证系统高可用,架构设计的核心准则是:冗余,有了冗余之后,还不够,每次出现故障需要人工介入恢复势必会增加系统的不可服务时间,所以又往往是通过自动故障转移来实现系统的高可用。
接下来我们看下典型互联网架构中,如何通过冗余+自动故障转移来保证系统的高可用。
3 常见的互联网分层架构
常见的互联网分布式架构如下,分为:
(1) 客户端层:典型调用方是浏览器browser或者手机app;
(2) 反向代理层:系统入口,反向代理;
(3) 站点应用层:实现核心应用逻辑,返回html或者json;
(4) 服务层:如果实现了服务化,就有这一层;
(5) 数据--缓存层:缓存加速访问存储;
(6) 数据--数据库层:数据库固化数据存储;
整个系统的高可用,又是通过每一层的冗余+自动故障转移来综合实现。
4 分层高可用架构实践
客户端层-->反向代理层的高可用
客户端层到反向代理层的高可用,是通过反向代理层的冗余来实现的。以nginx为例,有两台nginx,一台对线上提供服务,另一台冗余以保证高可用,常见的实践是keepalived存活探测,相同的virtual ip提供服务;
自动故障转移:当nginx挂了的时候,keepalived能够探测到,会自动进行故障转移,将流量自动迁移到shadow nginx,由于使用的是相同的virtual IP,这个切换过程对调用方是透明的。
反向代理层-->站点层的高可用
反向代理层到站点层的高可用,是通过站点层的冗余来实现的,假设反向代理层是nginx,nginx.conf里能够配置多个web后端,并且nginx能够探测到多个后端的存活性。
自动故障迁移:当web server挂了的时候,nginx能够探测到,会自动的进行故障转移,将流量自动迁移到其他的web server,整个过程由nginx自动完成,对调用方是透明的。
站点层-->服务层的高可用
站点层到服务层的高可用,是通过服务层的冗余来实现的,服务连接池会建立与下游服务多个连接,每次请求会"随机"选取连接来访问下游服务。
自动故障转移:当service挂了的时候,service connection pool能够探测到,会自动的进行故障转移,将流量自动迁移到其他的service,整个过程由连接池自动完成,对调用方是透明的(所以说RPC client中的服务连接池是很重要的基础组件)。
服务层-->缓存层的高可用
服务层到缓存层的高可用,是通过缓存数据的冗余来实现的。缓存层的数据冗余又有几种方式:
第一种是利用客户端的封装,service对cache进行双读或双写。
缓存层也可以通过支持主从同步的缓存集群来解决缓存层的高可用问题。以redis为例,redis天然支持主从同步,reids官方也有sentinel哨兵机制,来做redis的存活性检测。
自动故障转移:当redis主挂了之后,sentinel能够探测到,会通知调用方访问新的redis,整个过程由sentinel和redis集群配合完成,对调用方透明。
说完缓存的高可用,这里要多说一句,业务对缓存并不一定有高可用要求,更多的对缓存的使用场景是用来加速数据访问:把一部分数据放到缓存里,如果缓存挂了或者缓存没有命中,是可以去后端的数据库中再取数据。这类允许cache miss的业务场景,缓存架构的建议是:
将kv缓存封装成服务集群,上游设置一个代理,代理可以用集群冗余的方式保证高可用,代理的后端根据缓存访问的key水平切分成若干个实例,每个实例的访问并不做高可用:
缓存实例挂了屏蔽:当有水平切分的实例挂掉的时候,代理层直接返回cache miss,此时缓存挂掉对调用方也是透明的,key水平切分实例减少,不建议做re-hash,这样容易引起缓存数据不一致。
服务层-->数据库层的高可用
大部分互联网技术,数据库层都用了主从同步,读写分离架构,所以数据库层的高可用又分为读库高可用和写库高可用两类。
服务层-->数据库层读库高可用
服务层到数据库读库的高可用,是通过读库的冗余来实现的。既然冗余了读库,一般来说就至少有2个从库,数据库连接池会建立与读库多个连接,每次请求会路由到这些读库。
故障自动转移:当读库挂了的时候,db connection pool能够探测到,会自动的进行故障转移,将流量自动迁移到其他的读库,整个过程由连接池自动完成,对调用方是透明的(所以DAO中的数据库连接池是很重要的基础组件)。
服务层-->数据库写库高可用
服务层到数据库写库的高可用,是通过写库冗余来实现的。以mysql为例,可以设置两个mysql双主同步,一台对线上提供服务,另一台冗余以保证高可用,常见的实践是keepalived存活探测,相同的virtual IP提供服务。
自动故障转移:当写库挂了的时候,keepalived能够探测到,会自动的进行故障转移,将流量自动迁移到shadow db master,由于使用的是相同的virtual IP,这个切换过程对调用方是透明的。
5 总结
高可用HA(High Availability)是分布式系统架构设计中必须考虑的因素之一,它是指通过设计减少系统不能提供服务的时间,方法论上,高可用是通过冗余+自动故障转移来实现的。
整个互联网分层系统架构的高可用,又是通过每一层的冗余+自动故障转移来综合实现的,具体的:
(1) 客户端层 ==> 反向代理层 的高可用,是通过反向代理层的冗余实现的,常见实践是keepalived + virtual IP自动故障转移;
(2) 反向代理层 ==> 站点层 的高可用,是通过站点层的冗余实现的,常见实践是nginx与web-server之间的存活性探测与自动故障转移;
(3) 站点层 ==> 服务层 的高可用,是通过服务层的冗余实现的,常见实践是通过service-connection-pool来保证自动故障转移;
(4) 服务层 ==> 缓存层 的高可用,是通过缓存数据的冗余实现的,常见实践是缓存客户端双读双写,或利用缓存集群的主从数据同步与sentinel保活与自动故障转移;更多的业务场景,对缓存没有高可用要求,可以使用缓存服务化来对调用方屏蔽底层复杂性;
(5) 服务层 ==> 数据库读库 的高可用,是通过读库的冗余实现的,常见实践是通过db-connection-pool来保证自动故障转移;
(6) 服务层 ==> 数据库写库 的高可用,是通过写库的冗余实现的,常见实践是keepalived + virtual IP自动故障转移;
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至yj.mapple@gmail.com
文章标题:互联网架构高可用
文章字数:2.3k
本文作者:melonshell
发布时间:2020-01-29, 09:32:04
最后更新:2020-01-29, 12:29:07
原始链接:http://melonshell.github.io/2020/01/29/tech8_ha/版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。