BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

Lucene 2.9:数字字段支持、新分析器及性能优化

| 作者 赵劼 关注 4 他的粉丝 发布于 2009年9月28日. 估计阅读时间: 2 分钟 | GMTC大前端的下一站,PWA、Web框架、Node等最新最热的大前端话题邀你一起共同探讨。

Apache Lucene项目是一个完全用Java编写的高性能、全功能的文本搜索引擎库,最近它发布了2.9版。此次发布在2.4.1版的基础上进行了许多增强:

  • 单个Segment的查询及缓存,这使reopen操作的速度显著提高。
  • 为IndexWriter增加了接近实时的搜索功能。
  • 新的Query类型。
  • 更智能,伸缩性更强的多词(multi-term)查询(如Wildcard,Range等等)。
  • 最新优化过的Collector/Scorer API。
  • 新增的Unicode支持及字符集(Collation)。
  • 基于Attribute的TokenStream新API。
  • 在contrib中提供了新的QueryParser框架,并替换了核心实现。
  • 在基于字段搜索,或使用自定义的Collector的时候可取消Score功能,这样可以获得显著的性能提高。
  • 新的分析器(PesianAnalyzer,ArabicAnalyzer即SmartChineseAnalyzer)。
  • 为大型文本新增快速向量高亮工具(fast-vector-highlighter)。
  • 对数字字段提供了高性能的查询支持。这些字段使用前缀树的结构进行索引,能直接支持简单而高效的数字范围查询,而不需要在外部对数字进行处理。

虽然Lucene团队打算在小版本的更新上做到完整的兼容,但是Lucene 2.9在不少方面破坏了这一点,详细信息可参考Changes文档中“向前兼容策略的改变(Changes in backwards compatibilit policy)”一节。Lucene团队建议不要直接替换生产环境下的二进制包,而是在部署前重新编译应用程序,以便在出现兼容问题时获得提示并进行修补。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT