InfoQ

新闻

Lucene 2.3:大幅提升索引性能,新增机器学习项目

作者 Ryan Slobojan译者 郭晓刚 发布于 2008年1月24日 下午10时0分

社区
Java
主题
开放源代码,
搜索
标签
Lucene,
Hadoop

Apache Lucene项目是一个完全用Java编写的高性能、全功能的文本搜索引擎库,今天它发布了2.3版。InfoQ采访了项目管理委员会(PMC)成员以及提交者,Grant Ingersoll,以深入了解这次发布的版本以及Lucene未来的计划。

Ingersoll认为这次的版本中最大的变化是新的索引算法,它使用了新的in-memory模型来达到大幅的速度提升。据Ingersoll说,单单是把Lucene 2.2 JAR换成Lucene 2.3 JAR就能在某些测试中把索引性能提速500%。其他改变还包括:

  • 改进的索引管理——以前在索引过程中,当合并内部索引文件时偶尔会出现长时间的停顿,现在已经消灭了这种现象。另外现在也更容易实现其他途径去管理索引过程。
  • 对象池——DocumentFieldToken的实例现在可在索引分析中重用,因此不但提升了分析的速度,还减少了索引过程中的内存分配次数。
  • 重新打开IndexReader ——重新打开一个IndexReader去捕捉索引中最新的变化,这个操作的速度现在也更快了,新的reopen()方法只会加载那些变更过的索引片断,而不是重新加载完整的索引。
  • 更简易的IndexWriter微调——setMaxBufferedDocs已被更直观的setRAMBufferSizeMB所取代。

另外,2.3的目标是只需通过文件替换就能换下2.2,完全不需要重新编译。这里是完整的更新说明

Ingersoll还谈论了Lucene未来的计划,他说下一版将会是2.9。2.9版是相对改动较小的版本,有些部分会被标为废弃,还会为了给Lucene 3.0做准备而进行一些清理。3.0版是一个重大的版本,包括把代码库迁移到JDK5,以之作为最低要求。3.0的其他主要特性还有待决定。

采访中还讨论了Lucene社区的总体情况。Ingersoll表示Lucene和Solr结合得很紧密,而与NutchTika以及Hadoop也有相当良好的相互沟通。Ingersoll还谈论了一个名为Mahout的项目,他正在启动该项目:

这是一个单独的项目,但对Lucene用户也会有好处。JIRA中已经有一些Lucene的补丁实现了ML算法。这个项目的目标是提供商业质量的大规模机器学习(machine learning,ML)算法。它以Hadoop为基础建立,遵循Apache许可证。我已经观察到不少人对这个项目感兴趣,希望在接下来这个月能把项目启动起来。

Ingersoll说,通过建立Mahout项目,他希望能够“进一步揭开Google这类公司提供的类似功能的秘密,并刺激在这个领域中的创新”。如果对这个新项目感兴趣,可以阅读一下它的项目计划孵化提案

查看英文原文:Lucene 2.3: Large indexing performance improvements, new machine-learning project

相关赞助商

InfoQ中文站Java社区,关注企业Java社区的变化与创新,通过新闻、文章、视频访谈和演讲以及迷你书等为中国Java技术社区提供一流资讯。

4 条回复

回复

2.3的目标是只需通过文件替换就能换下2.2,完全不需要重新编译 发表人 少远 姚 发表于 2008年1月25日 上午2时18分
Re: 2.3的目标是只需通过文件替换就能换下2.2,完全不需要重新编译 发表人 柳 轻眉 发表于 2008年1月25日 上午4时5分
来自Grant Ingersoll的两点补充 发表人 Xiaogang Guo 发表于 2008年1月25日 下午10时9分
very cool 发表人 yanger . 发表于 2008年2月20日 上午4时42分
  1. 这是最好的,不用改动太多,就可以获得性能的提升。

  2. 介就素好滴框架呀,兼容性升级~~

  3. 返回顶部

    来自Grant Ingersoll的两点补充

    2008年1月25日 下午10时9分 发表人 Xiaogang Guo

    1、2.9版之前会有一个2.4版。
    2、Mahout本周已成为Apache Lucene子项目(http://lucene.apache.org/mahout/)

  4. 返回顶部

    very cool

    2008年2月20日 上午4时42分 发表人 yanger .

    new reopen IndexReader will be very useful but ML looks very strange w/ lucene/Hadoop.

独家内容

运用Ruby纤程进行异步I/O:NeverBlock和Revactor

Ruby 1.9的纤程(Fibers)和非阻塞I/O越来越收到关注了。我们对来自NeverBlock项目的Mohammad A. Ali和来自Revactor项目的Tone Arcieri进行了访谈。

与杨巍一起探讨OpenSocial

InfoQ中文站有幸与Google中国的产品经理杨巍先生在一起探讨了OpenSocial的相关话题,包括OpenSocial的初衷、构成要素、实现方式、以及要实现它的技术储备等等。

书评:敏捷模式──指向成功的路标

Ryan Cooper对Amr Elssamadisy的新书发表了评价,并认为书中提供了一种为实施敏捷量身定做的框架。本书并没有给出一种人人可用的敏捷方法,而是为读者提供一些模式和工具,用以找出哪些敏捷实践可以最有效地达到该组织机构的特定目标。

构建的可伸缩性和达到的性能:一个虚拟座谈会

这个由业界主要专家们参加的座谈会探究了在使应用程序具备尽可能好的伸缩性及性能的过程中所面临的挑战和思考过程。

OpenSocial的分析与实现

本视频主要对OpenSocial进行了分析,并对实现的方式进行了介绍。其中包括:OpenSocial的开发经验、Container Provider的技术准备、平台的构成要素、具体的规范、以及对未来的展望。

缓存系统MemCached的Java客户端优化历程

Memcached在大型网站被应用得越来越广泛,但是Java客户端并不多,本文作者基于现有的开源客户端进行了封装优化,并翔实记录了这一过程。

超越SOA:动态业务应用的新企业应用框架(2)

在他们文章的第二部分,作者探讨了动态业务应用的架构并介绍了资源容器的概念。他们示范了如何在JEE之上构建这个架构,以及它如何影响实现生产力。

使用ClickOnce细分发布版本

ClickOnce让WinForms应用程序的部署轻而易举。David Cooksey演示了如何在ASP.NET中编写一个HttpHandler来实现对ClickOnce部署的版本细分。