BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

存储系统设计中的二八定律

| 作者 李士窑 关注 0 他的粉丝 发布于 2015年1月8日. 估计阅读时间: 3 分钟 | QCon上海2018 关注大数据平台技术选型、搭建、系统迁移和优化的经验。

二八定律又名帕累托法则、不平衡原则等,它是一种不均匀分布的理论,已被广泛应用于社会学、企业管理学以及经济学中。同样,该定律也适应于计算机科学领域,如应用负载、磁盘访问、存储系统设计等也都是不均匀的随机分布。近日,存储服务初创公司Coho Data的联合创始人兼CTO Andy Warfield发表了一篇关于在存储系统设计中二八定律应用的博文。在博文中,Andy Warfield对二八定律进行了介绍,并指出Facebook为大规模的应用程序而设计的存储系统也利用了这种原理。

Andy Warfield指出他们首先对最近11个开发者的台式机存储数据进行了为期一年的跟踪记录,这些记录包括大概76亿次的IO操作和在5TB存储数据上进行的超过28TB传输量。Andy通过初始容量与时间比例分析发现,这些数据很不均匀,如11台台式机上共存储有5.1TB的数据,这其中还有627GB(大约21%)的数据在一个月内很少被访问,3.1TB的数据在整整一年中没有被访问,如下图所示:

通过以上分析结果图,Andy还得出了以下两个新观点:

首先,使用LRU(最近最少使用算法)作为一个填充快速内存的模型能够估算来自服务(或缓存)的请求比例。另外,随着将快速存储介质添加到系统中,访问命中率也在增长。

其次,通过该图还可以计算出基于访问的标准成本,而不是基于每GB的存储成本。伴随着缓存的不停增加,访问命中率却在下降。要实现100%的命中率所花费的金钱是最初使用最小高速缓存而实现35%命中率所花费的11倍多。因此,数据访问的成本将会变得更加昂贵。

关于如何解决分布不均匀的问题,Andy认为不应该把资金花费在提高冷数据的访问性能上,而应该将资金花费在如何提高热数据的访问性能上。

Andy认为当前的存储领域也发生了巨大变化,固态存储已不单单有SATA/SAS SSD、PCIe/NVMe和NVDIMM三种选择,且每个选择的成本和性能都有很大的差别。因此,即使没有磁盘,存储系统仍需要混合介质,只有通过混合形式才可以实现高性能与卓越的价值。一个混合存储系统仍然需要使用磁盘,且应该把热数据存储在高性能的内存中。同样,一个全闪存阵列AFA可能由三个甚至更多不同类型的混合存储介质。为了最大程度地提高混合存储的性能,Andy还研究了一个新算法

最后,Andy还指出不均匀分布的广泛性以及正因为二八定律才使得系统设计能够服务于最受关注的事物上(如高速公路和农村公路、核心互联网路由器、中心城市交通运输系统等的设计),并提供高性能的服务。对于存储系统的设计也不例外,构建存储系统尤其需要细心地对工作负载进行响应式分析,以确定存储规模并满足实际应用的需要。


感谢郭蕾对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ)或者腾讯微博(@InfoQ)关注我们,并与我们的编辑和其他读者朋友交流。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT