BT

您是否属于早期采用者或者创新人士?InfoQ正在努力为您设计更多新功能。了解更多

Oniguruma的Java移植版让JRuby提速

| 作者 Werner Schuster 关注 4 他的粉丝 ,译者 郭晓刚 关注 0 他的粉丝 发布于 2007年12月3日. 估计阅读时间: 4 分钟 | ArchSummit社交架构图谱:Facebook、Snapchat、Tumblr等背后的核心技术

Ola Bini 报告说Oniguruma的移植版Joni已被合并入JRuby的代码主干

这是光辉的一天!Joni(Oniguruma正则表达式引擎的Java移植版,Marcin的出色成果)已经被合并入JRuby的代码主干。现在看起来工作得非常好。

JRuby团队成员Marcin Mielczynski当初接下了将Oniguruma Regex引擎移植到Java代码的工作——Oniguruma是Ruby 1.9.x中包含的正则表达式引擎。

总也说不完的JRuby与正则表达式(Regex)引擎之间的故事,这次总算画上了句号。早期的JRuby使用Java内建的Regex库(由Java 1.4引入)来实现Ruby正则表达式。虽然这是最简单的方案,不需要任何第三方库或者移植,但它也带来了一些问题,因此不适合JRuby。由于JRuby目标是成为与Ruby 1.8.x(及以后版本)兼容的实现,因此有必要支持同样的正则表达式。Java内建的实现被发现不兼容,部分是因为算法中的实现细节让它不能处理某些表达式。Ola解释了随后的步骤

为了解决这个问题,我们集成了JRegex作为替代。这是JRuby 1.0发布时带的引擎,现在用的也仍然是它。它工作得很好。对于一个用Java编写的引擎来说,它已经算快了,但还不够快。具体地说,它不支持对字符串的精确查找,不支持fail-fast,而且该引擎要求我们把byte[]字符串转换成char[]或者String。不尽理想。另一个问题是损害了与MRI的兼容性,特别是在多字节支持上。

所有这些问题应该也将会被Joni解决掉。Regex性能过去是一个大问题(例子可见《在JRuby on Rails上构建Oracle Mix的收获》),Joni看起来对此也有帮助。Charles Nutter用新的代码来检验了REXML的性能

在经过一系列基本的优化后,我们先前担忧的大多数关键表达式的性能都至少和JRegex一样,甚至要好很多,于是Ola花了几天时间完成了转换。Marcin正继续在进行各种优化。我和Ola都已经试验过新的代码。看起来很不错。

Nutter接着给出了合并代码前后的基准测试结果对比,数据显示出Joni代码带来了显著的速度提升。

这个问题也暴露出了很多Ruby实现共同面对的一个麻烦。Rubinius是大部分用Ruby编写的一个Ruby实现,它可以直接采用最简单的方案——包含Oniguruma。但在VM(如JVM和.NET)上完成的Ruby实现,如果要包含一个原生库,会让部署变得更加困难(它们必须为各平台发行专门的版本)。除此之外,Marcin指出还存在其它集成问题

我们已经考虑过[包含Oniguruma]。有几个理由:
多线程:Oniguruma在初始化代码范围表或者管理共享的AST节点(如Character类散列表)时,使用全局锁。Oniguruma字节码解释器也使用线程锁(可以关闭该特性,但在Java中这项特性是自带的,而且混合异种线程和Java线程属于歪道)。
异常:很难从segfaults从恢复。把Oniguruma转换成Ruby异常也是一种丑陋的歪道。
JNI:JNI要求本地数据与VM数据分离,因此所有的字符串、字节都要进行复制。
额外的二进制分发包:希望你编译时不会遇到什么麻烦:D
查看英文原文:Oniguruma Java port speeds up JRuby

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT