BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

ElasticSearch新版发布,改进的聚合功能和脚本功能成亮点

| 作者 Roopesh Shenoy 关注 0 他的粉丝 ,译者 赵震一 关注 0 他的粉丝 发布于 2014年8月1日. 估计阅读时间: 3 分钟 | AICon 关注机器学习、计算机视觉、NLP、自动驾驶等20+AI热点技术和最新落地成功案例。

ElasticSearch 发布了1.3.0版。该版本基于Lucene 4.9,带来了更为出色的聚合功能,并包含了安全、脚本处理以及索引性能等多个方面的改进。

出于安全考虑,动态脚本Dynamic Scripting)这一功能在1.2版中是被默认禁用的。而如今,这一选项针对沙箱化的语言(sandboxed languages)是默认启用的。Groovy也得到了沙箱支持,目前替代MVEL成为了脚本功能的首选语言。MVEL目前已不再被推荐使用,并将于1.4版被移除。

我们来看看其他一些新的脚本功能:

  • Lucene表达式(Lucene Expressions作为一项试验性功能被集成进了核心包。该功能提供了一套机制,它可以将JavaScript搜索表达式编译成字节码,从而获得很高的执行速度。早些时候的一些基准测试显示,这一方式较Groovy脚本有4到6倍的速度提升。伴随着速度的提升也带来了一些局限性,你只能通过这种方式访问数值类型的域(fields),且无法访问那些已存储的域(译者注:相对于索引域和分词域),而那些稀疏域(某些文档在该域上没有值)将会返回默认值0;除此之外,它仅能用于搜索,而不能用于文档更新。
  • 脚本(包括搜索模板-Search templates)目前可以被保存到一个特殊的.scripts索引中,从而无须像原来那样保存到每个节点的配置目录中。这样一来,用户可以通过新的查询(query)来更新script/template,从而使“用户自定义”的查询变得更加容易。

我们再来看看新的聚合功能:

  • 域的折叠与融合(Field Collapsing/Combining)——可以将一组值折叠成一个或固定数量的条目,从而能防止出现重复的文档。
  • 百分位等级聚合(Percentile Ranks Aggregation——该试验性功能展示了观测值在某个特定值之下的百分率。
  • 为某个域进行地理位置值的地理范围聚合——该功能提供了一个覆盖了所有位置值的范围框图(举个例子:一个销售区域而非独立的销售城市列表)。
  • 在高基数(high cardinality)域上的词元(terms)聚合具有更好的性能。
  • collect_mode选项允许你定义是否在子聚合计算完之前进行父级聚合的分支裁剪(广度优先)。在大多数查询中,深度优先这一默认值( 所有分支在被裁剪之前,第一遍就展开到该分支的深度)往往能给出更好的结果,但是针对那些拥有很多唯一词元的域以及必须返回少量结果的情况,广度优先将会更加有效。

新版本在索引和 I/O方面也带来了一些性能提升。尤其是Lucene 4.9,它具有更加卓越的压缩特性,从而提升了磁盘和内存的使用率。新版本同时在弹性方面也做了改进。

这一版同样也引入了一些重大的变化——举个例子,出于安全考虑,JSONP目前已被默认禁用。你可以通过阅读发布说明来对变更列表中的全部内容进行进一步了解。

查看英文原文:ElasticSearch Gets Better Aggregation, Adds Groovy for Scripting

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT