Hash、Set、String的BitMap等可以实现判断元素是否存在的功能,但这些实现方式要么随着元素增多会占用大量内存(Hash、Set),要么无法动态伸缩和保持误判率不变(BitMap)。因此,我们非常需要一种可以高效判断大量数据是否存在且允许一定误判率的数据结构。
1.1 什么是布隆过滤器(Bloom Filter)
布隆过滤器由Burton Howard Bloom于1970年提出,用于判断一个元素是否在集合中。 布隆过滤器(Bloom filter)是一种非常节省空间的概率数据结构(space-efficient probabilistic data structure),运行速度快(时间效率),占用内存小(空间效率),但是有一定的误判率且无法删除元素。本质上由一个很长的二进制向量和一系列随机映射函数组成。
1.2 布隆过滤器特点
一个很长的二进制向量 (位数组)一系列随机函数 (哈希)空间效率和查询效率高有一定的误判率(哈希表是精确匹配)布隆过滤器支持添加元素、检查元素,但是不支持删除元素;检查结果分为2种:一定不在集合中、可能在集合中(误判率问题);检查到的结果: 1.元素不存在该集合,就一定不存在该集合 2.元素存在该集合,就不一定是存在(此处是误判率的问题)
1.3 redisbloom 布隆过滤器原理
布隆过滤器(Bloom Filter)的核心实现是一个超大的位数组和几个哈希函数。假设位数组的长度为m,哈希函数的个数为k 以上图为例,具体的操作流程:假设集合里面有3个元素{x,y,z},哈希函数的个数为3,。首先将位数组进行初始化,将里面每个位都设置为0。对于集合里面的每一个元素,将元素依次通过3个哈希函数进行映射,每次映射都会产生一个哈希值,这个值就对应维数组上面一个点,然后将为位数组对应的位置标记为1。查询W元素是否存在集合宏的时候,同样的方法将W通过哈希映射到位数组上的3个点。如果3个点的其中有一个点不为1,则可以判断该元素一定不存在该集合中。反之,如果3个点都为1,则该元素可能存在集合中。注意:此处不能判断该元素是否一定存在集合中,可能存在一定的误判率。可以从图中看到,假设某个元素通过映射对应下表为4,5,6这3个点。虽然这个3个点都为1,但是很明显这3个点是不同元素经过哈希得到的位置,因此这种情况说明元素虽然不在集合中,也可能对应的都是1,这是误判率存在的原因。
总结:redisbloom主要以二进制向量(2进制方式)方式标记元素是否存在于过滤器中,空间效率和查询效率高,允许添加,删除,不支持修改,有一定的误判率;
1.4 布隆过滤器误判率统计
如果m代表位向量长度n代表需要判断的元素个数k代表hash函数个数。 下表是m与n比值在k个hash函数下面的误判率 误判率统计: m/nkk=1k=2k=3k=4k=5k=6k=7k=821.390.3930.40032.080.2830.2370.25342.770.2210.1550.1470.16053.460.1810.1090.0920.0920.10164.160.1540.08040.06090.05610.05780.063874.850.1330.06180.04230.03590.03470.036485.550.1180.04890.03060.0240.02170.02160.022996.240.1050.03970.02280.01660.01410.01330.01350.0145106.930.09520.03290.01740.01180.009430.008440.008190.00846117.620.08690.02760.01360.008640.00650.005520.005130.00509128.320.080.02360.01080.006460.004590.003710.003290.00314139.010.0740.02030.008750.004920.003320.002550.002170.00199149.70.06890.01770.007180.003810.002440.001790.001460.001291510.40.06450.01560.005960.0030.001830.001280.0010.0008521611.10.06060.01380.0050.002390.001390.0009350.0007020.0005741711.80.05710.01230.004230.001930.001070.0006920.0004990.0003941812.50.0540.01110.003620.001580.0008390.0005190.000360.0002751913.20.05130.009980.003120.00130.0006630.0003940.0002640.0001942013.90.04880.009060.00270.001080.000530.0003030.0001960.000142114.60.04650.008250.002360.0009050.0004270.0002360.0001470.0001012215.20.04440.007550.002070.0007640.0003470.0001850.0001127.46e-052315.90.04250.006940.001830.0006490.0002850.0001478.56e-055.55e-052416.60.04080.006390.001620.0005550.0002350.0001176.63e-054.17e-052517.30.03920.005910.001450.0004780.0001969.44e-055.18e-053.16e-0526180.03770.005480.001290.0004130.0001647.66e-054.08e-052.42e-052718.70.03640.00510.001160.0003590.0001386.26e-053.24e-051.87e-052819.40.03510.004750.001050.0003140.0001175.15e-052.59e-051.46e-052920.10.03390.004440.0009490.0002769.96e-054.26e-052.09e-051.14e-053020.80.03280.004160.0008620.0002438.53e-053.55e-051.69e-059.01e-063121.50.03170.00390.0007850.0002157.33e-052.97e-051.38e-057.16e-063222.20.03080.003670.0007170.0001916.33e-052.5e-051.13e-055.73e-061.5 使用传统数组或hash方式存储数据与redisboom比较:
项目中存储1亿个邮箱,邮箱平均30个字符 1.数组,hash占用的空间(utf-8) 1亿(英文字符) 1B字节(一个英文字符占用一个字节) (1亿*1字节*30字符)=3,000,000,000B / 1024 = 2,929,687.5 KB /1024 = 2,861.02294921875 MB /1024= 2.8 G 占用:2.8 G 2. redisbloom占用空间 n (代表需要判断的元素个数) m (代表位向量长度) k (代表hash函数个数) n=1亿 m/n=4 m=4亿 4亿/8b=50,000,000B /1024=48,828.125 KB /1024= 47.6837158203125 MB /1024= 0.04 G 占用空间:0.04 G 总结: 1.1亿邮箱使用hash或数组存储,占用空间是 2.8 G 2.1亿邮箱使用redisbloom存储,占用空间是0.04G 说明: 1B(字节 byte)= 8 (位 bit) 1KB=1024B 1MB=1024KB 1GB=1024MB 另,哈希表的空间利用率一般只有50%官方redisboom地址: https://docs.redislabs.com/latest/modules/redisbloom/ https://oss.redislabs.com/redisbloom/Quick_Start/ https://oss.redislabs.com/redisbloom/#command-references https://docs.redislabs.com/latest/modules/redisbloom/redisbloom-quickstart/?_ga=2.234894149.555262092.1603270995-1549265601.1603270995
redis官网下载即可 https://github.com/RedisLabsModules/redisbloom/
tag:https://github.com/RedisBloom/RedisBloom/tags
3.1 下载压缩包
[root@localhost redis]# wget https://github.com/RedisBloom/RedisBloom/archive/v2.2.1.tar.gz3.2 解压并安装,生成.so文件
[root@localhost redis]# tar -zxf v2.2.1.tar.gz [root@localhost redis]# ls redis-5.0.5 redis-5.0.5.tar.gz RedisBloom-2.2.1 v2.2.1.tar.gz [root@localhost redis]# cd RedisBloom-2.2.1/ [root@localhost RedisBloom-2.2.1]# make [root@localhost RedisBloom-2.2.1]# ls changelog contrib Dockerfile docs LICENSE Makefile mkdocs.yml ramp.yml README.md redisbloom.so rmutil src tests3.3 在redis配置文件(redis.conf)中加入该模块即可
[root@localhost redis-5.0.5]# pwd /root/redis/redis-5.0.5 [root@localhost redis-5.0.5]# ls 00-RELEASENOTES CONTRIBUTING deps Makefile README.md runtest runtest-moduleapi sentinel.conf tests BUGS COPYING INSTALL MANIFESTO redis.conf runtest-cluster runtest-sentinel src utils [root@localhost redis-5.0.5]# ls |grep redis.conf redis.conf #配置文件添加.so文件 [root@localhost redis-5.0.5]# vim redis.conf基本操作命令:
命令格式说明bf.reservebf.reserve {key} {error_rate} {initial_size}创建一个大小为initial_size位向量长度,错误率为error_rate的空的Bloom过滤器bf.addbf.add{key} {item}向key指定的Bloom中添加一个元素itembf.maddbf.madd {key} {item} {item2} {item3} …一次添加多个元素bf.existsbf.exists {key} {item}查询元素是否存在bf.mexistsbf.mexists {key} {item} {item2} {item3} …检查多个元素是否存在bf.infobf.info {key}查询key指定的Bloom的信息bf.debugbf.debug {key}查看BloomFilter的内部详细信息(如每层的元素个数、错误率等)cf.reservecf.reserve {key} {initial_size}创建一个initial_size位向量长度的空的Bloom过滤器cf.addcf.add {key} {item}向key指定的Bloom中添加一个元素itemcf.existscf.exists {key} {item}检查该元素是否存在bf.scandumpbf.scandump {key} {iter}(key:布隆过滤器的名字,iter:首次调用传值0,或者上次调用此命令返回的结果值)对Bloom进行增量持久化操作(增量保存)bf.localchunkbf.localchunk {key} {iter} {data}加载SCANDUMP持久化的Bloom数据(key:目标布隆过滤器的名字,iter:SCANDUMP返回的迭代器的值,和data一一对应,data:SCANDUMP返回的数据块(data chunk))【说明redis布隆过滤器不支持修改元素,只能重新创建】
redis中有两个值决定布隆过滤器的准确率:
值说明error_rate允许布隆过滤器的错误率,这个值越低过滤器的位数组的大小越大,占用空间就越大 (默认值0.01)initial_size布隆过滤器可以存储的元素个数(位存储),当实际存在的元素个数超过这个值之后,过滤器的准确率会下降(默认值100)redis 设置redisbloom的这两个值: demo:bf.reserve test 0.1 100000000 说明: bf.reserve 过滤器的名字 错误率(error_rate 的值) 位向量长度(initial_size 的值)
参数说明test是过滤器的名字0.1错误率( error_rate 的值)1000000位向量长度(initial_size 的值)(注意必须在add之前使用bf.reserve指令显式创建,如果对应的key已经存在,bf.server会报错。同事设置的错误率越低,需要的空间越大。如果不使用bf.serve,默认的error_rate是0.01,默认的initial_size是100)
注意事项
initial_size估计的过大会浪费存储空间,因此在使用前要尽可能精确估计好元素数量+冗余空间。error_rate越小,需要的存储空间越大。6.1 redis-cli操作
#新建一个过滤器 127.0.0.1:6379> bf.reserve test 0.1 1000000 # test是布隆过滤器名称,0.1是误判率,1000000是位向量长度 OK #向过滤器中添加元素 127.0.0.1:6379> bf.add test one (integer) 1 127.0.0.1:6379> bf.add test two (integer) 1 #test是布隆过滤器名称,one,two是需要判断的元素 #批量添加 127.0.0.1:6379> bf.madd test 1 2 3 4 1) (integer) 1 2) (integer) 1 3) (integer) 1 4) (integer) 1 #判断元素是否在过滤器中 127.0.0.1:6379> bf.exists test one (integer) 1 127.0.0.1:6379> bf.exists test two (integer) 1 127.0.0.1:6379> bf.exists test three (integer) 0 #test是布隆过滤器名称,one,two是需要判断的元素存在返回1,不存在返回0 #批量判断该元素是否存在 127.0.0.1:6379> bf.mexists test 1 2 3 5 1) (integer) 1 2) (integer) 1 3) (integer) 1 4) (integer) 0 #查看指定的key的Bloom信息 127.0.0.1:6379> bf.info test 1) Capacity 2) (integer) 1000000 3) Size 4) (integer) 779555 5) Number of filters 6) (integer) 1 7) Number of items inserted 8) (integer) 7 9) Expansion rate 10) (integer) 2 #查看BloomFilter的内部详细信息(如每层的元素个数、错误率等) 127.0.0.1:6379> bf.debug test 1) "size:7" 2) "bytes:779403 bits:6235224 hashes:5 hashwidth:64 capacity:1000000 size:7 ratio:0.05" #添加一个位向量长度为100000000的空的布隆过滤器 127.0.0.1:6379> cf.reserve test3 100000000 OK #添加元素 127.0.0.1:6379> cf.add test3 1 (integer) 1 127.0.0.1:6379> cf.add test3 2 (integer) 1 #检查该元素是否存在 127.0.0.1:6379> cf.exists test3 2 (integer) 1 #对Bloom进行增量持久化操作(增量保存 127.0.0.1:6379> bf.scandump test 0 1) (integer) 1 2) "\a\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x05\x00\x00\x00\x02\x00\x00\x00\x8b\xe4\x0b\x00\x00\x00\x00\x00X$_\x00\x00\x00\x00\x00\a\x00\x00\x00\x00\x00\x00\x00\x9a\x99\x99\x99\x99\x99\xa9?J\xf7\xd4\x9e\xde\xf0\x18@\x05\x00\x00\x00@B\x0f\x00\x00\x00\x00\x00\x00"6.2 php使用
#添加php-redisbloom.php文件 <?php $redis=new Redis(); $redis->connect('127.0.0.1',6379); $result=$redis->rawCommand('bf.exists','test','one'); var_dump($result); #执行 [root@localhost redis]# php php-redisbloom.php int(1)【添加:在向redis set值的之后,调用bf.add添加到过滤器。 检查:在穿过了redis去到Mysql之前,调用bf.exists检查一下,如果不存在则不连接mysql查询】