如何快速判断元素是否在集合中?这个问题是我最近在面试的时候经常问的一个问题。对于这个问题,不同的人有不同的答案。今天要介绍一个很少有人会提到的解决方案,那就是借助Bloomfilter。什么是布隆过滤器布隆过滤器(BloomFilter)是1970年由一个叫Bloom的师兄提出来的。实际上,它可以看作是一个由两部分组成的数据结构:一个二进制向量(或位数组)和一系列随机映射函数(哈希函数)。它的优点是空间效率和查询时间都比一般算法好很多,缺点是存在一定的误识别率和删除难度。实现原理首先,让我们来了解一下布隆过滤器算法。Bloomfilter算法的主要思想是使用n个哈希函数进行哈希运算得到不同的哈希值,根据哈希值将它们映射到一个数组中(这个数组的长度可能会很长)。不同的索引位置,然后将相应索引位上的值设置为1。判断元素是否出现在集合中就是使用k个不同的哈希函数计算哈希值。Java训练检查hash值对应索引位置上方的值是否为1,如果有一个不为1,说明该元素不存在于集合中。但是也可以判断元素在集合中,但是元素不在。1上面这个元素的所有索引位置都是由其他元素设置的,这就导致了一定概率的误判(这就是上面为什么活在一个集合中的根本原因,因为会存在一些hash冲突)。注:误报率越低,对应的性能越低。布隆过滤器可以用来判断一个元素是否(可能)在一个集合中,相比其他数据结构,布隆过滤器在空间和时间上具有巨大的优势。请注意上面的一个词:可能。这里留个悬念,下面详细分析。使用场景判断给定数据是否存在,防止缓存穿透(判断请求数据是否有效,避免直接绕过缓存请求数据库)等,垃圾邮件过滤,黑名单功能等。看完的算法思路布隆过滤器,下面开始讲解具体实现。先给大家举个例子,假设有旺财和小强两个字符串,分别经过三次hash算法,然后设置对应数组索引位置的值(假设数组长度为16)为1根据哈希结果,我们先来看词组旺财:旺财经过三次哈希后,值分别为2、4、6,那么可以得到索引值分别为2、4、6,所以数组的索引(2,4,6)位置的值设置为1,其余的都视为0。现在假设你需要搜索旺财。同样的三个哈希后,你发现得到的索引2、4、6对应的位置的值都是1,那么你就可以判断Prosperity可能存在。然后将小强插入布隆过滤器,实际过程同上,假设得到的下标为1,3,5,不管旺财的存在,此时小强在布隆过滤器中看起来是这样的,实际数组结合旺财和小强是这样的:现在有一个数据:9527,现在需求判断9527是否存在,假设9527经过3次hash后得到的下标分别是:5、6、7。原来下标为7的位置的值为0,所以可以肯定的判断9527一定不存在。接着来了一个国产的007,经过3次hash,得到的下标分别是:2、3、5。结果发现下标2、3、5对应的值都是1,所以可以大致判断出国产007可能存在。.但实际上经过我们刚才的演示,国产的007根本就不存在。之所以2、3、5索引位置的值为1是因为其他的数据设置。说了这么多,不知道大家是否理解布隆过滤器的作用。代码的实现作为java程序员,我们真的很幸福。我们用了很多框架和工具,基本上都是封装好的。Bloomfilter,我们用的是google打包的工具。首先添加依赖
