图11-1左侧为客户端直接调用存储层的架构,右侧为比较典型的缓存层 +存储层架构,下面分析一下缓存加入后带来的收益和成本。
收益如下:
成本如下:
缓存的使用场景基本包含如下几种:
缓存中的数据通常都是有生命周期的,需要在指定时间后被删除或更新,这样可以保证缓存空间在一个可控的范围。
但是缓存中的数据会和数据源中的真实数据有一段时间窗口的不一致,需要利用某些策略进行更新
下面将分别从使用场景、一致性、开发人员开发/维护成本三个方面介绍三种缓存的更新策略:
使用场景
:通常用于缓存使用量超过了预设的最大值的时候,如何对现有的数据进行剔除。例如Redis使用MaxMemory-policy这个配置作为内存最大值后对于数据的剔除策略一致性
:要清理哪些数据是有具体算法决定,开发人员只能决定使用哪种算法,所以数据的一致性是最差的。维护成本
:算法不需要开发人员自己来实现,通常只需要配置最大maxmemory和对应的策略即可。开发人员只需要知道每种算法的含义,选择适合自己的算法即可。使用场景
:通过给缓存数据设置过期时间,让其在过期时间后自动删除,例如Redis提供的expire命令。如果业务可以容忍一段时间内,缓存层数据和存储层数据不一致,那么可以为其设置过期时间。在数据过期后,再从真实数据获取数据,重新放到缓存并设置过期时间。例如一个视频的描述信息,可以容忍几分钟内数据不一致,但是涉及交易方面的业务,后果可想而知。一致性
:一段时间窗口内(取决于过期时间长短)存在一致性问题,即缓存数据和真实数据源的数据不一致。维护成本
:不是很高,只需要设置expire过期时间即可使用场景
:应用方对于数据的一致性要求很高,需要在真实数据更新后,立即更新缓存数据。例如可以利用消息系统或者其他方式通知缓存更新。一致性
:最高,但如果主动更新发生了问题,那么这条数据很可能长时间不会更新,所以建议结合超时剔除一起使用效果会更好维护成本
:较高,需要自己来完成更新,并保证更新操作的准确性。图11-2是很多项目关于缓存比较常用的选型,缓存层选用Redis,存储 层选用MySQL。
例如现在需要将MySql的用户信息使用Redis缓存,可以执行如下操作:
sqlselect * from user where id = {id};
redisset user:{id} 'select * from user where id ={id}'
redisset user:{id} 'select * from user where id ={id}'
redisset user:{id} 'select {importColumn1},{import Column2} ……from user where id ={id}'
下面将从通用性、空间占用、代码维护三个角度进行说明:
通用性
:缓存全部数据比部分数据更加通用,但从实际经验看,很长时间内应用只需要几个重要的属性。空间占用
:全部数据会占造成内存的浪费;全部数据可能每次传输产生的网络流量会比较大,耗时比较大,在极端情况下会阻塞网络;全部数据的序列化和反序列化的CPU开销更大代码维护
:全部数据的优势更明显,而部分数据一旦要加新字段需要修改业务代码,而且修改后通常还需要刷新缓存数据。缓存穿透
:是指查询一个根本不存在的数据,缓存层和存储层都不会命中,通常出于容错的考虑,如果从存储层查不到数据则不写入缓存层:
缓存穿透的问题后果:
造成缓存穿透的原因:
缓存空对象有两个问题:
例如过期时间设置为5分钟,如果此时存储层添加了这个数据,那此段时间就会出现缓存层和存储层数据的不一致,此时可以利用消息系统或者其他地方清除掉缓存层中的空对象。
javaString get(String key) {
// 从缓存中获取数据
String cacheValue = cache.get(key);
// 缓存为空
if (StringUtils.isBlank(cacheValue)) {
// 从存储中获取
String storageValue = storage.get(key);
cache.set(key, storageValue);
// 如果存储数据为空,需要设置一个过期时间(300秒)
if (storageValue == null) {
cache.expire(key, 60 * 5);
}
return storageValue;
} else {
// 缓存非空
return cacheValue;
}
}
如图11-5所示,在访问缓存层和存储层之前,将存在的key用布隆过滤器提前保存起来,做第一层拦截。
例如:一个推荐系统有4亿个用户id,每 个小时算法工程师会根据每个用户之前历史行为计算出推荐数据放到存储层中,
但是最新的用户由于没有历史行为,就会发生缓存穿透的行为,为此可 以将所有推荐数据的用户做成布隆过滤器。
如果布隆过滤器认为该用户id不存在,那么就不会访问存储层,在一定程度保护了存储层。
相关信息
有关布隆过滤器的相关知识,可以参 考:https://en.wikipedia.org/wiki/Bloom_filter可以利用Redis的Bitmaps实现布 隆过滤器,GitHub上已经开源了类似的方案,读者可以进行参 考:https://github.com/erikdubbelboer/redis-lua-scaling-bloom-filter。
这种方法适用于数据命中不高、数据相对固定、实时性低(通常是数据 集较大)的应用场景,代码维护较为复杂,但是缓存空间占用少。
2010年,Facebook的Memcache节点已经达到了3000个,承载着TB级别的缓存数据。
但开发和运维人员发现了一个问题,为了满足业务要求添加了 大量新Memcache节点,但是发现性能不但没有好转反而下降了,当时将这种现象称为缓存的“无底洞”现象
。
那么为什么会产生这种现象呢?
通常来说添加节点使得Memcache集群性能应该更强了,但事实并非如此。
键值数据库由于通常采用哈希函数将key映射到各个节点上,造成key的分布与业务无关,但是由于数据量和访问量的持续增长,造成需要添加大量节点做水平扩容,
导致键值分布到更多的节点上,所以无论是Memcache还是Redis的分布式,批量操作通常需要从不同节点上获取,
相比于单机批量操作只涉及一次网络操作,分布式批量操作会涉及多次网络时间。
图11-6展示了在分布式条件下,一次mget操作需要访问多个Redis节点,需要多次网络时间。
而图11-7由于所有键值都集中在一个节点上,所以一次批量操作只需要一次网络时间。
无底洞问题分析
:
下面介绍如何在分布式条件下优化批量操作。在介绍具体的方法之前,我们来看一下常见的IO优化思路:
上面已经给出了IO的优化思路以及单个节点的批量操作优化方式,
下面我们将结合Redis Cluster的一些特性对四种分布式的批量操作方式进行说明
javaList<String> serialMGet(List<String> keys) {
// 结果集
List<String> values = new ArrayList<String>();
// n次串行get
for (String key : keys) {
String value = jedisCluster.get(key);
values.add(value);
}
return values;
}
同时10.5节我们提到过Smart客户端会保存slot和节点的对应关系,有了这两个数据就可以将属于同一个节点的key进行归档,得到每个节点的key子列表,
之后对每个节点执行mget或者Pipeline操作,它的操作时间=node次网络时间+n次命令时间,网络次数是node的个数,整个过程如图11- 10所示,很明显这种方案比第一种要好很多,但是如果节点数太多,还是有一定的性能问题。
javaMap<String, String> serialIOMget(List<String> keys) {
// 结果集
Map<String, String> keyValueMap = new HashMap<String, String>();
// 属于各个节点的key列表,JedisPool要提供基于ip和port的hashcode方法
Map<JedisPool, List<String>> nodeKeyListMap = new HashMap<JedisPool, List<String>>();
// 遍历所有的key
for (String key : keys) {
// 使用CRC16本地计算每个key的slot
int slot = JedisClusterCRC16.getSlot(key);
// 通过jedisCluster本地slot->node映射获取slot对应的node
JedisPool jedisPool = jedisCluster.getConnectionHandler().getJedisPoolFrom
Slot(slot);
// 归档
if (nodeKeyListMap.containsKey(jedisPool)) {
nodeKeyListMap.get(jedisPool).add(key);
} else {
List<String> list = new ArrayList<String>();
list.add(key);
nodeKeyListMap.put(jedisPool, list);
}
}
// 从每个节点上批量获取,这里使用mget也可以使用pipeline
for (Entry<JedisPool, List<String>> entry : nodeKeyListMap.entrySet()) {
JedisPool jedisPool = entry.getKey();
List<String> nodeKeyList = entry.getValue();
// 列表变为数组
String[] nodeKeyArray = nodeKeyList.toArray(new String[nodeKeyList.size()]);
// 批量获取,可以使用mget或者Pipeline
List<String> nodeValueList = jedisPool.getResource().mget(nodeKeyArray);
// 归档
for (int i = 0; i < nodeKeyList.size(); i++) {
keyValueMap.put(nodeKeyList.get(i), nodeValueList.get(i));
}
}
return keyValueMap;
}
max_slow(node网络时间)+n次命令时间
javaMap<String, String> parallelIOMget(List<String> keys) {
// 结果集
Map<String, String> keyValueMap = new HashMap<String, String>();
// 属于各个节点的key列表
Map<JedisPool, List<String>> nodeKeyListMap = new HashMap<JedisPool, List<String>>();
...和前面一样
// 多线程mget,最终汇总结果
for (Entry<JedisPool, List<String>> entry : nodeKeyListMap.entrySet()) {
// 多线程实现
}
return keyValueMap;
}
javaList<String> hashTagMget(String[] hashTagKeys) {
return jedisCluster.mget(hashTagKeys);
}
图11-14描述了什么是缓存雪崩
:由于缓存层承载着大量请求,有效地
保护了存储层,但是如果缓存层由于某些原因不能提供服务,于是所有的请
求都会达到存储层,存储层的调用量会暴增,造成存储层也会级联宕机的情
况。
缓存雪崩的英文原意是stampeding herd(奔逃的野牛),指的是缓存层宕掉后,流量会像奔逃的野牛一样,打向后端存储
。
预防和解决缓存雪崩问题,可以从以下三个方面进行着手:
保证缓存层服务高可用性。和飞机都有多个引擎一样,如果缓存层设计成高可用的,即使个别节点、个别机器、甚至是机房宕掉,依然可以提供服务,例如前面介绍过的Redis Sentinel和Redis Cluster都实现了高可用。
依赖隔离组件为后端限流并降级。
无论是缓存层还是存储层都会有出错的概率,可以将它们视同为资源。
作为并发量较大的系统,假如有一个资源不可用,可能会造成线程全部阻塞(hang)在这个资源上,造成整个系统不可用。
降级机制在高并发系统中是非常普遍的:比如推荐服务中,如果个性化推荐服务不可用,可以降级补充热点数据,不至于造成前端页面是开天窗。
在实际项目中,我们需要对重要的资源(例如Redis、MySQL、HBase、外部接口)都进行隔离,让每种资源都单独运行在自己的线程池中,即使个别资源出现了问题,对其他服务没有影响。
但是线程池如何管理,比如如何关闭资源池、开启资源池、资源池阀值管理,这些做起来还是相当复杂的。这里推荐一个Java依赖隔离工具Hystrix(https://github.com/netflix/hystrix) 图11-15所示。Hystrix是解决依赖隔离的利器,但是该内容已经超出本书的范围,同时只适用于Java应用
开发人员使用“缓存+过期时间”的策略既可以加速数据读写,又保证数据的定期更新,这种模式基本能够满足绝大部分需求。但是有两个问题如果同时出现,可能就会对应用造成致命的危害:
在缓存失效的瞬间,有大量线程来重建缓存(如图11-16所示),造成后端负载加大,甚至可能会让应用崩溃。
要解决这个问题也不是很复杂,但是不能为了解决这个问题给系统带来更多的麻烦,所以需要制定如下目标:
此方法只允许一个线程重建缓存,其他线程等待重建缓存的过程执行完,重新从缓存获取数据即可。
下面代码使用Redis的setnx命令实现上述功能:
javaString get(String key) {
// 从Redis中获取数据
String value = redis.get(key);
// 如果value为空,则开始重构缓存
if (value == null) {
// 只允许一个线程重构缓存,使用nx,并设置过期时间ex
String mutexKey = "mutext:key:" + key;
if (redis.set(mutexKey, "1", "ex 180", "nx")) {
// 从数据源获取数据
value = db.get(key);
// 回写Redis,并设置过期时间
redis.setex(key, timeout, value);
// 删除key_mutex
redis.delete(mutexKey);
}
// 其他线程休息50毫秒后重试
else {
Thread.sleep(50);
get(key);
}
}
return value;
}
“永远不过期”包含两层意思:
从实战看,此方法有效杜绝了热点key产生的问题,但唯一不足的就是重构缓存期间,会出现数据不一致的情况,这取决于应用方是否容忍这种不一致。
下面代码使用Redis进行模拟:
javaString get(final String key) {
V v = redis.get(key);
String value = v.getValue();
// 逻辑过期时间
long logicTimeout = v.getLogicTimeout();
// 如果逻辑过期时间小于当前时间,开始后台构建
if (v.logicTimeout <= System.currentTimeMillis()) {
String mutexKey = "mutex:key:" + key;
if (redis.set(mutexKey, "1", "ex 180", "nx")) {
// 重构缓存
threadPool.execute(new Runnable() {
public void run() {
String dbValue = db.get(key);
redis.set(key, (dbvalue,newLogicTimeout));
redis.delete(mutexKey);
}
});
}
}
return value;
}
作为一个并发量较大的应用,在使用缓存时有三个目标:
本文作者:Eric
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!