BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

DataFu在Apache进入孵化状态

| 作者 Charles Menguy 关注 0 他的粉丝 ,译者 梅雪松 关注 0 他的粉丝 发布于 2014年2月13日. 估计阅读时间: 2 分钟 | Google、Facebook、Pinterest、阿里、腾讯 等顶尖技术团队的上百个可供参考的架构实例!

LinkedInDataFu项目是一个用于Hadoop的类库集合,于1月第1周在Apache软件基金会(ASF)正式进入孵化状态

该项目创建于2012年1月,早期的定位是作为Pig项目的用户定义函数集(UDF )。相对于更加通用的UDF集如Piggybank,Datafu更侧重于数据挖掘和统计 类的函数,例如分位数计算和取样方法。2013年10月,一个名为DataFu Hourglass的新库加入到此项目。Hourglass是用于MapReduce的类库,为作业提供了处理增量数据的能力。其处理方式一般是在HDFS中保存上一个作业的状态,并用它来处理新的输入。现在这两个项目都成为孵化器的一部分。

DataFu在Apache进入孵化状态,是其前进过程中的一大步。任何项目都要经过严格的审查,完成投票程序才能进入孵化器。2012年初创建的DataFu,2014年初才成功进入孵化器。通常,一个Apache项目完成孵化需要一定的时间,一旦项目的相关服务(wiki、邮件列表、教程等等)建设完成,DataFu将结束孵化,成为ASF的顶级项目或者Hadoop的子项目。

随着最近进入Apache孵化器,DataFu有了很多近期的发展计划。其中最关键的功能之一是为HiveCrunch提供同一UDF,以使其得到更大范围的应用。其中包括将项目的构建系统移植到Gradle,这些工作DataFu社区目前正在做。构建系统从Ant改为Gradle的好处是能够巩固社区,使其以更简单的 流程添加新功能。

DataFu社区还比较小,但保持着稳定的增长。Russell Jurney最近的贡献使Open NLP项目成了DataFu 1.3.0的一部分。邮件列表中讨论的焦点是增加更多UDF,就像项目贡献者Matthew Hayes和Sam Shah所描述的,让DataFu成为“大数据的WD-40”。

查看英文原文:DataFu Enters Incubation Status at Apache


感谢臧秀涛对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ)或者腾讯微博(@InfoQ)关注我们,并与我们的编辑和其他读者朋友交流。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT