【融云分析】如何实现分布式场景下唯一 ID 生成？

2019-06-12 11:00:17 责任编辑：出处：[db:出处]

　　◀背景▶

　　对于一套分布式部署的 IM 系统，要求每条消息的 ID 要保证在集群中全局唯一且按生成时间有序排列。如何快速高效的生成消息数据的唯一 ID ，是影响系统吞吐量的关键因素。那么，融云是如何做到生成全局唯一消息 ID 的呢?

　　首先需要明确下 ID 生成的核心需求：

　　1. 全局唯一

　　2. 有序

　　◀设计▶

　　融云消息数据的唯一 ID 长度采用 80 Bit 。每 5 个 Bit ，进行一次 32 进制编码，转换为一个字符，字符取值范围是，( 2 ~ 9 ) 和 ( A ~ B )，其中，已经去掉容易造成肉眼混淆的，数字 0 和 1 ，及字母 O 和 I 。这样，80 Bit 可以转换为 16 个字符，再加上 3 个分隔符( - )，将 16 个字符分为 4 组，最终得到一个 19 字符的唯一 ID 。这样设计，即可以保证生成的 ID 是有序的，也能方便阅读。

　　如上图所示，80 Bit 被分为 4 段：

　　1. 第一段 42 Bit ，用于存放时间戳，最长可表示到 2109 年，足够开发者当前使用了。时间戳数据放在高位，可以保证生成的唯一 ID 是按时间有序的，这个是消息 ID 必须要满足的条件。

　　2. 第二段 12 Bit ，用于存放自旋转 ID 。我们知道，时间戳的精度是到毫秒的，对于一套亿级 IM 系统来说，同一毫秒内产生多条消息太正常不过了，这个自旋 ID 就是在给落到同一毫秒内的消息进行自增编号。12 Bit 则意味着，同一毫秒内，单台主机中最多可以标识 4096( 2 的 12 次方)条消息。

　　3. 第三段 4 Bit ，用于标识会话类型。4 Bit ，最多可以标识 16 中会话，足够涵盖单聊、群聊、系统消息、聊天室、客服及公众号等常用会话类型。

　　4. 第四段 22 Bit ，会话 ID 。如群聊中的群 ID ，聊天室中的聊天室 ID 等。与第三段会话类型组合在一起，可以唯一标识一个会话。其他的一些 ID 生成算法，会预留两段，分别用来标识数据中心编号和主机编号(如 SnowFlake 算法)，我们并没有这样做，而是将这两段用来标识会话。这样，ID 生成可以直接融入到业务服务中，且不必关心服务所在的主机，做到无状态扩缩容。

　　◀实现过程▶

　　消息 ID 共占 80 Bit ，计算时我们分为两部分，高 64 Bit (记为 highBits )和低 16 Bit (记为 lowBits )。

　　1. 获取当前系统的时间戳，并赋值给消息 ID 的高 64 Bit ;