InfoQ

InfoQ

新闻

我的书签

登录注册 以永久保存书签。

该内容已经被标记书签!

标记书签错误,请重试!

Cassandra 1.0.0为进军企业做好了准备

作者 Abel Avram 译者 张龙 发布于 2012年2月2日

领域
运维 & 基础架构,
架构 & 设计
主题
大数据 ,
NoSQL ,
数据访问 ,
开放源代码 ,
数据库设计 ,
数据库 ,
架构 ,
编程 ,
Apache

近日,Apache发布了Cassandra 1.0.0,这是该分布式基于列的数据存储的首个主要里程碑版本,带来了数据压缩与其他几处性能改进和优化。

Cassandra为Apache的顶级开源项目,是个可伸缩的分布式(Amazon的Dynamo与Google BigTable基于列的数据模型是其代表)数据库管理系统。Cassandra最初是由Facebook开发的,后来在2008年开源,现在一直处于开发当中。近日,Apache发布了其首个主要的里程碑版本Cassandra 1.0.0,带来了大量的新特性、改进和Bug修复。

呼声最高的一个特性就是数据压缩。Cassandra 1.0支持每个ColumnFamily的数据压缩,ColumnFamily是个列的容器,类似于传统关系数据库的表。压缩过程在后台运行,对于节点的响应时间没什么影响。压缩将数据所占据的空间减少了2到4倍,据Pavel Yaskevich所述,这间接提升了25-35%的读性能以及5-10%的写性能。

根据Apache Cassandra项目的副总裁Jonathan Ellis所述,从Cassandra 0.6到1.0,性能有了很大的提升,“与2010年的发布相比,写性能提升了40%。但我们真正想要改进的是读性能,这提升了惊人的400%”。

其他改进有:

通过off-heap缓存、空间搜集和自动化的自我调整,内存管理得到了改进,GC暂停数更少、性能更加可预测(点击这里查看详细信息)。

更好的磁盘空间管理:通过提交日志与即时删除废弃的数据文件实现了更好的空间占用控制。

新的可选级别的压缩策略,提供了更加可预测的性能与确定的SStable大小(点击这里查看详细信息)。

改进的hinted handoffs,这样就需要更少的读修复,实现了更好的读性能。

大量的性能改进(点击这里查看详细信息)、CQL、修复、更简单的操作等等。

目前,Cisco、DiggFacebookRackspaceRedditTwitter 等公司都在使用Cassandra,最大的产品集群在150多台机器上拥有超过100TB的数据。

查看英文原文:Cassandra 1.0.0. Is Ready for the Enterprise

译者 张龙 热衷于编程,乐于分享,对新技术有强烈的探索欲,对Java轻量级框架有一定研究。

怎样将空间 "减少" 2 到 4 "倍" 发表人 Kraft Bai 发表于
这玩意不稳定呀 发表人 胡 凯 发表于
  1. 返回顶部

    怎样将空间 "减少" 2 到 4 "倍"

    发表人 Kraft Bai

    太常见的错误了

  2. 返回顶部

    这玩意不稳定呀

    发表人 胡 凯

    单台节点10T数据时,Cassandra整天都在不断的合并数据,IO被吃光光!