InfoQ

InfoQ

新闻

我的书签

登录注册 以永久保存书签。

该内容已经被标记书签!

标记书签错误,请重试!

Mahout 0.3: 机器学习开源项目

作者 Gilad Manor 译者 沙晓兰 发布于 2010年5月1日

领域
企业架构,
架构 & 设计,
语言 & 开发
主题
Java EE ,
开源Java ,
Java ,
语言 ,
架构 ,
企业架构 ,
Mahout ,
编程 ,
数据仓库 ,
Hadoop

有关机器学习的开源项目Apache Mahout三月份的时候推 出了它的0.3版本,这个新版本在之前的基础上添加了一些新功能,比之前的版本更为稳定,性能也有相应的提升。InfoQ采访了Apache Mahout项目的开发者Grant IngersollTed Dunning,其中Grant Ingresoll也是该项目的创始人之一。

过去十年里,从大 量原始数据中解析出相关信息的需求急剧增长,以致于聚类(clustering)、协同过滤(collaborative filtering)和分类(categorization)等机器学习技术的需 求也是呈稳定增长势态。

Grant Ingersoll这样介 绍Mahout项目:

  • 将已知方法语境中的文档聚类 (Clustering)有助于把注意力集中到某些特定的聚类和内容上,从而避免在无关的内容上浪费精力。
  • 推荐算法(协同过滤推荐算法 -Collaborative Filtering)常常用来向用户推荐书籍、音乐、电影等内容,也可以用于多用户协作的应用中精简所需关注的数 据。
  • 模式匹配(朴素贝叶斯分类器 -Naïve Bayes Classifier等分类算法)可用于归类之前没有见过的文档。归类新文档时,算法在模式中查找文档中涉及的词汇, 计算该文档属于各个模式的概率,最后文档将归于概率最大的模式,输入的结果往往都以数值来表示算法本身对这个结果的正确与否有多大的把握。
  • Mahout 项目通过Apache Hadoop的支持来获 得伸缩性。

Mahout另一个重点是,它提供一系列工 具把文本数据表示成矩阵形式。这也是采用Mahout机器学习算法来处理数据的首要任务。

Mahout项目是由Apache Lucene(开源搜索项目)社区几 个热衷于聚类、分类等机器学习算法的技术人员所发起。社区最初的开发“追随”于Ng et al.发表的论文“支持多核之上的机器学习Map-Reduce框架(Map-Reduce for Machine Learning on Multicore)”,自项目启动以来,社区也致力于各种机器学习算法、模式的开发

最新Apache Mahout版本的亮点有:

在问到这个版本中最激动人心的特性 时,Ingersoll这样回答:

新添加的分布式奇异值分解(Singular Value Decomposition)计算非常令人期待,此外,还有那些方便用户把内容导入到Mahout的诸多工具。其中,最激动人心的其实并不是有形的,而是 Mahout社区的成长。社区目前已吸引到数量客观的贡献者和用户。任何开源项目的发展过程当中,最初阶段往往都很惨淡,工作常常只有一两个人去做,一旦 当中有人离开甚至只是减缓开发速度,整个项目都有可能中途夭折。但我相信Mahout已经通过了这样的考验,现在已经有非常多非常活跃的社区成员正努力把 它变成一个真正令人激动的项目。

Mahout项目的未来计划包括:

SGD 和SVM的实现将适宜于文档挖掘以及其它一些与文本或重复归类数据相关的应用。尤其令人期待的是SGD系统将引入在线创建互动变量的 能力。

查看英文原文:Mahout 0.3: Open Source Machine Learning

译者 沙晓兰 目前从事Web应用的开发,有Java和JavaScript开发经验,关注J2EE、Struts 2等技术以及富客户端开发动态。

mark 发表人 wh docong 发表于
终于登上台面了 发表人 sen firefly 发表于
  1. 返回顶部

    mark

    发表人 wh docong

    rt

  2. 返回顶部

    终于登上台面了

    发表人 sen firefly

    一直默默无闻的一个项目,不过它的更新速度很快,春节前还是0.1未发布只能从svn上拖下来代码,春节之后就升到0.3了。
    这个东西有很多问题,比如处理数据的时候会把数据一次性读入到内存中,所以有很大的优化潜力,估计是伤筋动骨的修改。