BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

Cassandra 1.0.0为进军企业做好了准备

| 作者 Abel Avram 关注 9 他的粉丝 ,译者 张龙 关注 14 他的粉丝 发布于 2012年2月3日. 估计阅读时间: 2 分钟 | AICon 关注机器学习、计算机视觉、NLP、自动驾驶等20+AI热点技术和最新落地成功案例。

近日,Apache发布了Cassandra 1.0.0,这是该分布式基于列的数据存储的首个主要里程碑版本,带来了数据压缩与其他几处性能改进和优化。

Cassandra为Apache的顶级开源项目,是个可伸缩的分布式(Amazon的Dynamo与Google BigTable基于列的数据模型是其代表)数据库管理系统。Cassandra最初是由Facebook开发的,后来在2008年开源,现在一直处于开发当中。近日,Apache发布了其首个主要的里程碑版本Cassandra 1.0.0,带来了大量的新特性、改进和Bug修复。

呼声最高的一个特性就是数据压缩。Cassandra 1.0支持每个ColumnFamily的数据压缩,ColumnFamily是个列的容器,类似于传统关系数据库的表。压缩过程在后台运行,对于节点的响应时间没什么影响。压缩将数据所占据的空间减少了2到4倍,据Pavel Yaskevich所述,这间接提升了25-35%的读性能以及5-10%的写性能。

根据Apache Cassandra项目的副总裁Jonathan Ellis所述,从Cassandra 0.6到1.0,性能有了很大的提升,“与2010年的发布相比,写性能提升了40%。但我们真正想要改进的是读性能,这提升了惊人的400%”。

其他改进有:

通过off-heap缓存、空间搜集和自动化的自我调整,内存管理得到了改进,GC暂停数更少、性能更加可预测(点击这里查看详细信息)。

更好的磁盘空间管理:通过提交日志与即时删除废弃的数据文件实现了更好的空间占用控制。

新的可选级别的压缩策略,提供了更加可预测的性能与确定的SStable大小(点击这里查看详细信息)。

改进的hinted handoffs,这样就需要更少的读修复,实现了更好的读性能。

大量的性能改进(点击这里查看详细信息)、CQL、修复、更简单的操作等等。

目前,Cisco、DiggFacebookRackspaceRedditTwitter 等公司都在使用Cassandra,最大的产品集群在150多台机器上拥有超过100TB的数据。

查看英文原文:Cassandra 1.0.0. Is Ready for the Enterprise

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

怎样将空间 "减少" 2 到 4 "倍" by Kraft Bai

太常见的错误了

这玩意不稳定呀 by 胡 凯

单台节点10T数据时,Cassandra整天都在不断的合并数据,IO被吃光光!

Re: 这玩意不稳定呀 by Junny Stone

Cassandra的目标就不是为了单个节点而设计的,单节点大数据没法谈HA

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

3 讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT