深入剖析Zookeeper原理(一)整体设计
lipiwang 2025-06-15 17:24 3 浏览 0 评论
1. ZK集群架构设计与特性
1. ZK集群架构设计:
ZK主要分为三种角色:
- Leader(领导者):一个Zookeeper集群同一时间只会有一个实际工作的Leader,它会发起并维护与各Follwer及Observer间的心跳。所有的写操作必须要通过Leader完成再由Leader将写操作广播给其它服务器。
- Follower(跟随者):一个Zookeeper集群可能同时存在多个Follower,它会响应Leader的心跳。Follower可以处理客户端的读请求,但写请求转发给Leader处理,并且负责参与新 leader的选举、响应 leader 的提议。
- Observer(观察者):角色与Follower类似,但是无投票权,不参加选举, 也不响应提议。 其次是 Observer不需要将事务持久化到磁盘,一旦 Observer被重启,需要从 leader 重新同步整个名字空间。Observer可以接收客户端连接,将写请求转发给leader,设计Observer的目的是为了扩展系统,提升读取速度。
2. ZK的网络架构:
Zookeeper的工作集群可以简单划分为Leader和follower,后续章节会讲解Leader是通过内部选举确定的。
Leader和各个follower是互相通信的,对于zk系统的数据都是保存在内存里面的,为防止数据丢失, 也会备份一份在磁盘上。对于每个zk节点而言,可以看做每个zk节点的命名空间是一样的,也就是有同样的数据。
如果Leader挂了,zk集群会重新选举,在毫秒级别就会重新选举出一个Leaer。集群中除非有一半以上的zk节点挂了,整个ZK集群才不可用。
3. ZK特性:
- 顺序一致性:客户端发出的更新操作命令, 严格地按照其发起的顺序在Zookeeper中执行。 Zookeeper的所有写操作都通过主机点执行,从节点做复制同步操作,这样所有节点的更新顺序都和主节点相同。 详情可查阅FollowerRequestProcessor->CommitProcessor.processRequest() 采用LinkedList存储请求
- 实时性:ZooKeeper 保证客户端在一定的时间间隔内获得最新数据结果。比如客户端通过Watch机制监听不同的节点, 只要发生变化, 都能实时获取信息变化。
- 原子性:领导者在同步数据时会保证事务性,一次数据的更新操作,要么都成功,要么都失败, 没有其他的状态。
2. CAP定理
CAP定理,指的是在一个分布式系统中,Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性)这三个基本需求,最多只能同时满足其中的2个。
Consistency(一致性):
在分布式环境中,一致性是指数据在多个副本之间是否能够保持数据一致的特性。例如一个将数据副本分布在不同分布式节点上的系统来说,如果对第一个节点的数据进行了更新操作并且更新成功后,其他节点上的数据也应该得到更新,并且所有用户都可以读取到其最新的值,那么这样的系统就被认为具有强一致性(或严格的一致性)。
Availability(可用性):
可用性是指系统提供的服务必须一直处于可用的状态,对于用户的每一个操作请求总是能够在有限的时间内返回结果。有效的时间是指,对于用户的一个操作请求,系统必须能够在指定的时间(即响应时间)内返回处理结果,如果超过了这个时间范围,那么系统就被认为是不可用的。
返回结果是可用性的另一个非常重要的指标,它要求系统在完成对用户请求的处理后,返回一个正常的响应结果。正常的响应结果通常能够明确的反映出对请求的处理结果,即成功或失败,而并非一个不明确的结果。
Partition Tolerance(分区容错性):
分区容错性约束了一个分布式系统需要具有如下特性:分布式系统在遇到任何网络分区故障的时候,仍然需要能够保证对外提供满足一致性和可用性的服务,除非是整个网络环境都发生了故障。
什么是网络分区?它是指在分布式系统中,不同的节点分布在不同的网络(比如机房或异地网络等)中,由于一些特殊的原因(比如DNS,路由等故障)导致这些子网络之间出现网络不连通的状况,但各个子网络的内部网络是正常的,从而导致整个系统的网络环境被切分成了若干个孤立的区域,形成了不同的网络分区。
由于一个分布式系统无法同时满足上面的三个需求,而只能满足其中的两项,因此在依据CAP定理应用的时候,需要根据业务需求权衡考虑,抛弃其中的一项。那Zookeeper是如何运用的?它又遵循了哪两种特性?
ZK在CAP定理中, 保证的是CP特性。
ZK为什么不能满足可用性呢?
作为ZK的核心实现算法Zab,就是解决了分布式系统下数据如何在多个服务之间保持同步问题的。如果ZK下所有节点都断开了,或者集群中出现网络分割的故障,ZK会将他们从自己管理范围内剔除出去,外界就不能访问到这个节点,即便这些节点本身是健康的,可以正常提供服务。
在剔除故障节点的这段时间内,ZK可能会丢弃一些请求,消费者程序需要重新请求才能获得结果。
ZK在什么情况下是不能保证可用呢?
之前我们讲过,ZK的所有写请求都必须经由leader节点处理, 所以ZK在进行leader选举时集群都是不可用的。
客户端可以考虑加入重试机制来做补偿
3. ZK数据结构与存储
1. ZK数据结构模型
在Zookeeper当中, 数据是如何存储呢, 它有怎样的特点?其实ZK的数据结构类似linux中的文件系统结构
ZK命名空间中的每个节点路径都是唯一标识。 命名空间是可以支持层级的。
ZNode节点属性:
[zk: localhost:2181(CONNECTED) 1] get /testNode
test
cZxid = 0x2
ctime = Fri Aug 06 22:28:23 CST 2020
mZxid = 0x2
mtime = Fri Aug 06 22:28:23 CST 2020
pZxid = 0x2
cversion = 0
dataVersion = 0
aclVersion = 0
ephemeralOwner = 0x0
dataLength = 4
numChildren = 0
具体可以查看
org.apache.zookeeper.data.Stat源码:
- cZxid :创建的事务标识。
- ctime:创建的时间戳。
- mZxid:修改的事务标识,每次修改操作(set)后都会更新mZxid和mtime。
- mtime:修改的时间戳。
- pZxid:直接子节点最后更新的事务标识,子节点有变化(创建create、修改set、删除delete,rmr)时,都会更新pZxid。
- cversion :直接子节点的版本号。当子节点有变化(创建create、修改set、删除delete,rmr)时,cversion 的值就会增加1。
- dataVersion :节点数据的版本号,每次对节点进行修改操作(set)后,dataVersion的值都会增加1(即使设置的是相同的数据)。
- aclVersion :节点ACL的版本号,每次节点的ACL进行变化时,aclVersion 的值就会增加1。
- ephemeralOwner:当前节点是临时节点(ephemeral node )时,这个ephemeralOwner的值是客户端持有的session id。
- dataLength:节点存储的数据长度,单位为 B (字节)。
- numChildren:直接子节点的个数。
2. ZK数据存储方式
上面讲过ZK的数据结构模型, 实质上是类似树形的结构, 那ZK的数据是存储在哪里呢? 支持哪些存储方式?
数据存储方式分为三类:
- 内存数据 查看org.apache.zookeeper.server.DataTree与DataNode源码 结合ZK节点来讲解, node和tree的关联。 查看ZKDatabase源码 在内存数据库中,存储了整棵树的内容,包括所有的节点路径、节点数据、ACL信息,Zookeeper会定时将这这些数据存储到磁盘上。 内存数据结构分为三类: DataTree是内存数据存储的核心 DataNode是数据存储的最小单元,内部主要保存数据内容、ACL列表、节点状态信息 ZKDatabase是ZK的内存数据库,管理Zookeeper的所有会话、DataTree存储和事务日志。
- 事务日志 查看ZK数据存储目录, /data/zookeeper/version-2 -rw-r--r--. 1 root root 67108880 Mar 24 11:17 log.100000001 -rw-r--r--. 1 root root 67108880 Mar 25 01:23 log.1000001c4 -rw-r--r--. 1 root root 67108880 Mar 25 01:45 log.300000001 -rw-r--r--. 1 root root 67108880 Mar 26 12:44 log.300000005 ZK集群会有一个专门的dataDir目录,用来存储事务日志文件。该目录确定了当前ZK使用的事务日志格式版本号,当下次某个ZK版本对事务日志格式进行变更时,此目录也会变更,并在目录下生成一系列文件大小一致(64MB)的文件。 进入ZK目录/usr/local/zookeeper-3.4.14, 选取最新的日志文件,再执行: java -classpath .:./lib/slf4j-api-1.7.25.jar:./zookeeper-3.4.14.jar org.apache.zookeeper.server.LogFormatter /data/zookeeper/version-2/log.100000001 > log1.log 产生的日志内容: 8/9/21 8:55:19 PM EDT session 0x20003a778cc0012 cxid 0xa9 zxid 0x1000001bc delete '/lock-namespace/shared_lock/order/W-0000000016 8/9/21 8:55:29 PM EDT session 0x20003a778cc0012 cxid 0xb0 zxid 0x1000001bd delete '/lock-namespace/shared_lock/order/W-0000000017 8/9/21 9:46:18 PM EDT session 0x20003a778cc0012 cxid 0xb1 zxid 0x1000001be create '/lock-namespace/shared_lock/order/W-0000000018,#3139322e3136382e3132332e313033,v{s{31,s{'world,'anyone}}},T,19 8/9/21 9:46:38 PM EDT session 0x20003a778cc0012 cxid 0xb4 zxid 0x1000001bf delete '/lock-namespace/shared_lock/order/W-0000000018
- 数据快照(snapshot) 数据快照用来记录Zookeeper服务器上某一时刻的全量内存数据内容,并将其写入指定的磁盘文件中。 Zookeeper在进行若干次事务日志记录后,将内存数据库的全量数据Dump到本地文件中,这个就是数据快照。 快照查看命令: java -classpath .:./lib/slf4j-api-1.7.25.jar:./zookeeper-3.4.14.jar org.apache.zookeeper.server.SnapshotFormatter /data/zookeeper/version-2/snapshot.100000000 > snap1.log 查看源码: SyncRequestProcessor.run() -> zks.takeSnapshot() 在新增log(txn log)文件数量达到snapCount/2 + Random.nextInt(snapCount/2)时,将会对zkDatabase(内存数据库)进行snapshot。
本文由mirson创作分享, 欢迎关注, 谢谢
- 上一篇:多种负载均衡算法及其Java代码实现
- 下一篇:Flink中处理维表关联技术实现路径
相关推荐
- 软件测试|MySQL CROSS JOIN:交叉连接的详细解析
-
简介在MySQL数据库中,CROSSJOIN是一种用于生成两个或多个表的笛卡尔积的连接方法。CROSSJOIN不需要任何连接条件,它将左表的每一行与右表的每一行进行组合,从而生成一个包含所...
- 「MySQL笔记」left join-on-and 与 left join-on-where 的区别
-
1.摘要关于这两种写法的重要知识点摘要如下:left-join时,即使有相同的查询条件,二者的查询结果集也不同,原因是优先级导致的,on的优先级比where高on-and是进行韦恩运算连接...
- MySQL中的JOIN——联合查询的基本语法
-
MySQL中的JOIN指令用来将两个或多个表中的数据进行联合查询,根据连接条件来匹配记录,从而得到需要的结果集。在MySQL中,常见的JOIN类型包括INNERJOIN、LEFTJOIN和RIGH...
- MySQL 中的 CROSS JOIN:强大的连接工具
-
CROSSJOIN在MySQL里是一种挺特别的连接操作,它能弄出连接表的笛卡尔积。这就是说,要是表A有m行,表B有n行,那ACROSSJOINB的结果就会有m*n...
- 大厂必问:MySQL 三表 JOIN 操作的解析与性能优化,效率又如何?
-
大厂必问:MySQL三表JOIN操作的解析与性能优化策略,效率又如何?点击关注,开启技术之旅!大家好,这里是互联网技术学堂,无论你是一名程序员、设计师、还是对技术充满好奇心的普通人,都欢迎你加入...
- 面试题:MySQL 的 JOIN 查询优化(mysql查询优化方法)
-
MySQL的JOIN查询优化是提升数据库性能的关键环节。以下是综合多个技术文档的核心优化策略,按优先级和实现难度分类:一、索引优化:性能提升的基础为连接字段建立索引确保参与JOIN的列(通常...
- Flink中处理维表关联技术实现路径
-
在Flink中处理维表关联大体氛围TableSQLLookupJoin和DataStream算子函数,主要技术实现路径:I.FlinkSQL/TableAPI中的Lookup...
- 深入剖析Zookeeper原理(一)整体设计
-
1.ZK集群架构设计与特性1.ZK集群架构设计:ZK主要分为三种角色:Leader(领导者):一个Zookeeper集群同一时间只会有一个实际工作的Leader,它会发起并维护与各Follwer及...
- 多种负载均衡算法及其Java代码实现
-
首先给大家介绍下什么是负载均衡负载均衡建立在现有网络结构之上,它提供了一种廉价有效透明的方法扩展网络设备和服务器的带宽、增加吞吐量、加强网络数据处理能力、提高网络的灵活性和可用性。负载均衡,英...
- 一分钟了解SpringCloud中的ribbon到底是什么,原理是啥?
-
1.概念ribbon是一款客户端负载均衡器,用于微服务之间的负载均衡。首先,什么是客户端负载均衡?如图,ribbon可以通过注册中心获取服务列表,然后自己执行自己的负载均衡策略来决定要访问哪个微服务,...
- Step by Step之腾讯云短信-验证码实践
-
在商城小程序和前端上线用了一阵子之后,用户提出了体验提升的需求,如忘记密码、绑定用户、快捷注册等,作为业界最佳实践的短信验证码登录、重置密码和注册等功能开发也就提上日程了,本文就以重置密码为例,将验证...
- 10分钟入门响应式:Springboot整合kafka实现reactive
-
Springboot引入Reactor已经有一段时间了,笔者潜伏在各种技术群里暗中观察发现,好像scala圈子的同仁们,似乎对响应式更热衷一点。也许是因为他们对fp理解的更深吧,所以领悟起来障碍性更少...
- 使用java随机生成有个性的用户名,LOL地名+水浒传,合计2808个
-
*随机生成用户名*取水浒传108好汉名字*取LOL地名26个,组合而成*一共可以生成2808个不同特色的用户名如果你在上网的时候,用户名难取的话,这里有很多可选择的用户名,现提供100个...
- 深入理解Math.random()的概率分布特性
-
直接上源码/***Returnsa{@codedouble}valuewithapositivesign,*返回一个带符号的double类型的数字,说人话就是返回一个非负...
- 编程英文 - 创建/生成/构建 (create/generate/build)
-
在软件开发中,create、generate和build这三个词经常被用到,它们都与"创造"或"产生"某些东西有关,但在具体使用场景和含义上有所不同。基本含义creat...
你 发表评论:
欢迎- 一周热门
- 最近发表
-
- 软件测试|MySQL CROSS JOIN:交叉连接的详细解析
- 「MySQL笔记」left join-on-and 与 left join-on-where 的区别
- MySQL中的JOIN——联合查询的基本语法
- MySQL 中的 CROSS JOIN:强大的连接工具
- 大厂必问:MySQL 三表 JOIN 操作的解析与性能优化,效率又如何?
- 面试题:MySQL 的 JOIN 查询优化(mysql查询优化方法)
- Flink中处理维表关联技术实现路径
- 深入剖析Zookeeper原理(一)整体设计
- 多种负载均衡算法及其Java代码实现
- 一分钟了解SpringCloud中的ribbon到底是什么,原理是啥?
- 标签列表
-
- maven镜像 (69)
- undefined reference to (60)
- zip格式 (63)
- oracle over (62)
- date_format函数用法 (67)
- 在线代理服务器 (60)
- shell 字符串比较 (74)
- x509证书 (61)
- localhost (65)
- java.awt.headless (66)
- syn_sent (64)
- settings.xml (59)
- 弹出窗口 (56)
- applicationcontextaware (72)
- my.cnf (73)
- httpsession (62)
- pkcs7 (62)
- session cookie (63)
- java 生成uuid (58)
- could not initialize class (58)
- beanpropertyrowmapper (58)
- word空格下划线不显示 (73)
- jar文件 (60)
- jsp内置对象 (58)
- makefile编写规则 (58)