InfoQ

InfoQ

新闻

我的书签

登录注册 以永久保存书签。

该内容已经被标记书签!

标记书签错误,请重试!

Lucene 2.3:大幅提升索引性能,新增机器学习项目

作者 Ryan Slobojan 译者 郭晓刚 发布于 2008年1月24日

领域
架构 & 设计,
运维 & 基础架构,
语言 & 开发
主题
Java ,
搜索 ,
开放源代码
标签
Lucene ,
Hadoop

Apache Lucene项目是一个完全用Java编写的高性能、全功能的文本搜索引擎库,今天它发布了2.3版。InfoQ采访了项目管理委员会(PMC)成员以及提交者,Grant Ingersoll,以深入了解这次发布的版本以及Lucene未来的计划。

Ingersoll认为这次的版本中最大的变化是新的索引算法,它使用了新的in-memory模型来达到大幅的速度提升。据Ingersoll说,单单是把Lucene 2.2 JAR换成Lucene 2.3 JAR就能在某些测试中把索引性能提速500%。其他改变还包括:

  • 改进的索引管理——以前在索引过程中,当合并内部索引文件时偶尔会出现长时间的停顿,现在已经消灭了这种现象。另外现在也更容易实现其他途径去管理索引过程。
  • 对象池——DocumentFieldToken的实例现在可在索引分析中重用,因此不但提升了分析的速度,还减少了索引过程中的内存分配次数。
  • 重新打开IndexReader ——重新打开一个IndexReader去捕捉索引中最新的变化,这个操作的速度现在也更快了,新的reopen()方法只会加载那些变更过的索引片断,而不是重新加载完整的索引。
  • 更简易的IndexWriter微调——setMaxBufferedDocs已被更直观的setRAMBufferSizeMB所取代。

另外,2.3的目标是只需通过文件替换就能换下2.2,完全不需要重新编译。这里是完整的更新说明

Ingersoll还谈论了Lucene未来的计划,他说下一版将会是2.9。2.9版是相对改动较小的版本,有些部分会被标为废弃,还会为了给Lucene 3.0做准备而进行一些清理。3.0版是一个重大的版本,包括把代码库迁移到JDK5,以之作为最低要求。3.0的其他主要特性还有待决定。

采访中还讨论了Lucene社区的总体情况。Ingersoll表示Lucene和Solr结合得很紧密,而与NutchTika以及Hadoop也有相当良好的相互沟通。Ingersoll还谈论了一个名为Mahout的项目,他正在启动该项目:

这是一个单独的项目,但对Lucene用户也会有好处。JIRA中已经有一些Lucene的补丁实现了ML算法。这个项目的目标是提供商业质量的大规模机器学习(machine learning,ML)算法。它以Hadoop为基础建立,遵循Apache许可证。我已经观察到不少人对这个项目感兴趣,希望在接下来这个月能把项目启动起来。

Ingersoll说,通过建立Mahout项目,他希望能够“进一步揭开Google这类公司提供的类似功能的秘密,并刺激在这个领域中的创新”。如果对这个新项目感兴趣,可以阅读一下它的项目计划孵化提案

查看英文原文:Lucene 2.3: Large indexing performance improvements, new machine-learning project

译者 郭晓刚 是InfoQ中文站架构社区编辑,创建并终结过数家软件小企业,翻译过多本技术书籍。

2.3的目标是只需通过文件替换就能换下2.2,完全不需要重新编译 发表人 Yao Andy 发表于
Re: 2.3的目标是只需通过文件替换就能换下2.2,完全不需要重新编译 发表人 轻眉 柳 发表于
来自Grant Ingersoll的两点补充 发表人 Guo Xiaogang 发表于
very cool 发表人 . yanger 发表于
  1. 返回顶部

    2.3的目标是只需通过文件替换就能换下2.2,完全不需要重新编译

    发表人 Yao Andy

    这是最好的,不用改动太多,就可以获得性能的提升。

  2. 返回顶部

    Re: 2.3的目标是只需通过文件替换就能换下2.2,完全不需要重新编译

    发表人 轻眉 柳

    介就素好滴框架呀,兼容性升级~~

  3. 返回顶部

    来自Grant Ingersoll的两点补充

    发表人 Guo Xiaogang

    1、2.9版之前会有一个2.4版。


    2、Mahout本周已成为Apache Lucene子项目(lucene.apache.org/mahout/)

  4. 返回顶部

    very cool

    发表人 . yanger

    new reopen IndexReader will be very useful but ML looks very strange w/ lucene/Hadoop.

深度内容

应用云平台的可用性——从新浪SAE看云平台设计

云计算平台的可用性,相比传统互联网服务而言,更加复杂和困难,也更具有挑战性。本文借助新浪SAE云平台为读者讲述了云平台可用性的定义、如何打造高可用的平台,以及对云计算的用户提出了建议。

JVM定制改进 @ 淘宝

淘宝高度重视Java平台的健康发展,组建了一个团队专注于Java平台的底层部分的性能、功能与稳定性改进;工作主要基于OpenJDK中的HotSpot VM开展,其中一些通用的功能随后也会逐渐反馈给OpenJDK社区。希望能与使用Java平台开发应用的大家交流经验。
本次演讲视频录制于QCon杭州2011

"伤得起"的云计算应用——对云端应用之架构的思考

2011年4月21日至22日是值得云计算从业者纪念的日子。Amazon的IaaS服务出现故障,导致许多商业网站的服务中断,影响非常严重。作为云计算用户,我们需要思考的是,如何保证即便在云服务不可用的情况,我们的应用架构仍然能够屹立不倒?本文正是站在云计算用户的角度试图探讨这一问题。

让交付的速度跟上思考的速度

12人的技术团队,4组刀片服务器,每月20亿的访问量,每日1次准时部署,99.9%的可用性。这可能吗?当然。想知道如何做的吗?百姓网将与您分享他们在DevOps实践过程中的经验和技巧。
本次演讲视频录制于QCon杭州2011

架构之路——穿行在产品和业务之间

篱笆作为一家起源于社区的电子商务公司,反映到技术层面就是同时要面对产品和业务,以及经营战略的变化调整。如何在产品和业务的夹缝之间完成技术架构的抽象与平衡,寻找更有效的价值定位,这当中有些经验教训和个人感悟愿与众人分享。
本次演讲视频录制于QCon杭州2011

特性注入:成功三部曲

本文将对特性注入以及相关方法做一个扫盲性的介绍。我们会解释这个框架的关键要素,并附上实例来证实它们。为了让文章保持相对较短,我们不会深入到某个工具或方法中,而是会给出一些参考资料,以便大家做进一步的研究。

解析JDK 7的动态类型语言支持

随着JDK 7的发布,字节码指令集终于迎来了第一位新成员——invokedynamic指令。这条新增加的指令是JDK 7实现“动态类型语言(Dynamically Typed Language)”支持而进行的改进之一,也是为JDK 8可以顺利实现Lambda表达式做技术准备。在这篇文章中,我们将去了解JDK 7这项新特性的出现前因后果和它的意义。

Java Remoting远程服务(下)

随着互联网应用的发展,Java分布式远程服务技术受到越来越多的关注,本文将对各种相关实现以示例的形式逐一介绍,并总结其中的优缺点,使读者能够在技术选型时有所准备。这是文章的下篇。