深入Redis之 bitmap位图和HyperLogLog(五)-张柏沛IT博客

正文内容

深入Redis之 bitmap位图和HyperLogLog(五)

栏目:Linux 发布时间:2020-02-23 15:36 浏览量:301

bitmap位图


我们知道一个字符占1个字节,也就是8个位

例如 

set name big

big字符串中的3个字符的ASCII码为98 105 113
所以big转为二进制就是: 

01100010|01101001|01100111
    b       i        g


    
占了3个字节的大小,一共24个位。

bitmap位图可以帮我们获取和设置key存储的值的位。

 

例如 
获取 name 这个key 的第一个位
getbit name 0   # 得到0

设置 name 这个key的第8个位为1
setbit name 7 1     
get name        # 得到cig,b变成c

 

setbit只能修改位图指定索引的值,要么是0要么是1

如果使用setbit设置一个不存在的key的位图,则会生成这个key,并且将偏移量之前的位自动补0


例如:
setbit newKey 99 1     # 生成一个newKey,其位图长度为100,第100个位的值为1

位图为:

000...001
 | 99个0 |

get newKey      # 会得到一堆你不认识的数字"\x00\x00\x00\x00\x80"


bitcount key [start end]   # 获取位图指定范围为1的个数

bitop option destkey key1 key2 ... keyn      # 将多个bitmap进行 and or not xor操作并将结果存到destkey中

 

这里题外话说一下位运算:
and: 0&0=0  0&1=0  1&0=0  1&1=1
or: 0|0=0  0|1=1  1|0=1  1|1=1
xor: 0^0=0  0^1=1  1^0=1  1^1=0


实战场景:
大量的独立用户统计,具体情境为,一个网站有1亿个注册用户,每天登陆的用户有5000万个独立用户。记录每天每一个用户是否登陆。

 

 

两种解决思路:


a.使用集合set:以日期为key,集合存放的是当天登陆的用户id。

sadd date:20190101 100 5019 43889104    # 2019-01-01这天存了id为100,5019和43889104的id

假如每个userid平均占用空间为32个位=4字节,则一天约有5000万个id被记录到一个集合中,所以一天占用的内存空间=4*5000万 = 200M

一个月会产生30个这样的集合(这30个key不会都放到内存,肯定是只有当天的key放到内存,之前的key写入磁盘文件中),会占用
30 * 200M = 6G 的空间

如果想统计连续登录一周的用户可以
sinter date:20190101 date:20190102 ... date:20190107

 

 

b.使用位图: 以日期为key,设置位图的长度为最大的userid,假设最大的userid刚好是100000000(1亿),所以这个key一共有1亿个位。

00101100...01101
|<- 一亿个位 ->|

一天占用的空间为 1亿/8 = 12.5M

具体命令:
setbit date:20190101 100000000 0    # 先设定位图长度为1亿
setbit date:20190101 549 1          # 如userid为549的用户登录,就在第549个位上设置为1。
setbit date:20190101 98445219 1
.....

 

这样每个userid占用的空间实际上只有1个位=1/8个字节。

但是不管当天只有1个用户登录还是有1亿个用户登录,生成的位图的长度都是固定的1亿,占用的空间都是固定的12.5M。

一个月下来占用 
12.5*30 = 375M

如果想统计连续登录一周的用户可以
bitop and date:20190101 date:20190102 ... date:20190107

 

如果想统计一天的独立用户登录数量

bitcount date:20190101

 

如果想获取id为1000的用户在某一天是否登录:

getbit date:20190101 1000


对比set和bitmap发现,后者会节省很多空间。

 

 

但是换一个情景:
1亿的用户,每天10万独立用户登录

使用set : 32/8 * 10万 = 4M
使用bitmap: 1亿/8 = 12.5M 

此时是使用set更节省空间。

 

 

HyperLogLog


基于Hyperloglog算法,可以以极小的空间完成独立数据统计。其本质还是字符串。

命令:
pfadd key element ...   # 向hyperloglog添加一个或多个元素
pfcount key ...     # 计算hyperloglog的不重复的元素总数
pfmerge destkey k1 k2 ...   # 合并多个hyperloglog赋给destkey


实战场景:
计算每一天的网站的独立访客数量(用户重复进入网站不算)
方案:使用hyperloglog,以日期为key,一天建立一个hyperloglog来记录独立访客。用户每访问一次网页就往里面添加用户的id。可以往这个key中添加重复的用户id,但是pfcount只会计算不重复值的个数。

添加
pfadd date:20200101 u1 u100 u439 ...

计算一天的独立访客数
pfcount date:20200101

计算一周的独立访客数
pfcount date:20200101 date:20200102 ... date:20200107

如果一天有100万的独立用户访问网站,则一个hyperloglog只消耗15K的内存,一个月450K,一年才5M。

hyperloglog与set、bitmap的区别和比较:
hyperloglog消耗内存极小,但是它只能计算key中独立元素个数,不能取出里面的元素或者查看key中是否有某个元素。

所以想获取某个用户在某一天是否登陆就办不到的,而set和bitmap都是可以办到的。

hyperloglog有一定的错误率,例如往pfadd添加100万个不同元素(请勿用一条pfadd添加100万个元素),上面计算出来的元素个数为1009839

相比于单纯的字符串型 incr 来计算用户访问的区别是:
两者都先用很小的空间但
incr 不能计算独立用户访问数,只能计算用户总访问数(包括刷新页面也计算在内),而hyperloglog可以。

如果您需要转载,可以点击下方按钮可以进行复制粘贴;本站博客文章为原创,请转载时注明以下信息

张柏沛IT技术博客 > 深入Redis之 bitmap位图和HyperLogLog(五)

热门推荐
推荐新闻