InfoQ

InfoQ

新闻

我的书签

登录注册 以永久保存书签。

该内容已经被标记书签!

标记书签错误,请重试!

Hive 0.6.0发布了

作者 张龙 发布于 2010年11月7日

领域
企业架构,
架构 & 设计
主题
架构 ,
数据仓库 ,
Hadoop

近日,Apache软件基金会发布了Hive 0.6.0。Hive是由众多的志愿者所创建的开源项目。此前,它是Hadoop的一个子项目,但现在已经演化成为了Apache的一个顶级项目。

Hive是Hadoop所用的一个数据仓库系统,对于存储在Hadoop兼容的文件系统中的大规模数据集来说,Hive可以简化其摘要、ad-hoc查询以及分析过程。Hive提供了一种机制,可以将结构应用在这种数据上并使用名为HiveQL的类似于SQL的语言查询数据。同时,如果在表达逻辑时使用HiveQL不方便或效率比较低,那么传统的map/reduce程序员还可以使用其定制的mappers与reducers。

Hive的设计目标并非是在线的事务处理,也没有提供实时的查询与行级别更新。它的最佳应用场景是海量不变数据的批量处理。Hive最具价值的地方在于可伸缩性、可扩展性、容错处理以及与输入格式的松散耦合。

Hive并不需要使用专门的“Hive格式”,它支持Thrift、Control Delimited或是你自己专门的数据格式。

Hive 0.6.0对其MetaStore模式进行了修改。如果你想从老版本的Hive升级,那么就需要运行正确的模式升级脚本来升级MetaStore,该脚本位于scripts/metastore/upgrade目录。

Hive团队为Derby、MySQL与PostgreSQL数据库提供了升级脚本。如果你为MetaStore使用了不同的数据库,那么就需要自己编写脚本了。

感兴趣的读者可以到Hive的发布页面下载Hive 0.6.0:http://hive.apache.org/releases.html。下载完毕后请跟随上手指南以了解Hive的安装与配置方法,地址为http://wiki.apache.org/hadoop/Hive/GettingStarted。

张龙 热衷于编程,乐于分享,对新技术有强烈的探索欲,对Java轻量级框架有一定研究。