InfoQ

新闻

ruby_parser 1.0:Ruby语言实现的Ruby语法分析器

作者 Werner Schuster 译者 马家宽 发布于 2008年1月2日 下午11时31分

社区
Ruby
主题
编译器,
语言,
运行时
标签
ParseTree,
Rubinius,
IDE

07年12月22日,Ryan Davis宣布了ruby_parser的发布。ruby_parser是一个纯Ruby实现的Ruby源代码语法分析器。这个语法分析器的编写过程中使用了Ruby yACC (RACC),一个包含在Ruby标准库中的语法分析程序生成器。

ruby_parser(RP)是一个纯Ruby实现的Ruby语法分析器(借助了racc——它在缺省情况下使用C语言的扩展). RP的输出与语法分析树的输出相同:用ruby中的数组以及基本类型来表达的s-expression。

这个库很容易使用:

RubyParser.new.parse "1+1" 
上面的语句会返回
s(:call, s(:lit, 1), :+, s(:array, s(:lit, 1))) 

Ruby世界中一直缺少纯Ruby实现的Ruby语法分析器。“纯Ruby”意味着该语法分析器:

  • 仅仅包含Ruby源文件
  • 没有任何本地扩展或者C语言代码(例如通过RubyInline)——C语言代码要求用户系统必须包含C编译器来处理这些代码

上面这些属性对于保证代码能够通用于各种Ruby运行时至关重要。如果一个语法分析器的实现使用了基于C语言的本地扩展,那么它就无法在不支持这些扩展的Ruby版本上运行,例如JRuby、XRuby或者.NET上的IronRuby和Ruby.NET。即便这些Ruby版本支持了本地扩展(JRuby正在考虑这一方案),它还会造成部署问题,因为这要求扩展所使用的库或DLL必须被移植到任何可能的OS/CPU组合之上(否则某些用户将无法使用该语法分析器)。Ryan Davis的另一个项目RubyInline,通过自动编译那些内联的C代码一定程度上的改善了这一状况。但要RubyInline要求目标系统需要包含一个C编译器——这一条件并不是总能满足,尤其是对于Windows系统来说。

因为可以使用类似语法分析树(ParseTree)的通用方法来对Ruby代码进行分析并获得抽象语法树(Abstract Syntax Tree),所以在Ruby历史上的一定时期内,纯Ruby语法分析器的缺失被忽视了。然而自从各种Ruby运行时雨后春笋一样的出现以来,Ruby语法分析器被反复实现了很多次——两次使用Java(JRuby和XRuby),一次使用C#(Ruby.NET所编写的语法分析器也被IronRuby所使用)。所有这些分析器提供了不同的抽象语法树以及获取它们的方式。

这造成了Ruby源代码工具的一些问题。例如,目前Aptana/RDT(基于Eclipse)中包含的Ruby重构工具就被绑定到Java和JRuby的抽象语法树上,这使其无法被用在其他的Ruby实现上。类似的,针对其他基于Java的Ruby IDE的工具也正在被开发,这造成了大量代码分析管理工具被限制在Java和JRuby上。除此之外,这些工具的逻辑使用Java而不是Ruby编写,这对Ruby开发人员来说不够友好。

纯Ruby语法分析器提供了改变这种情况的机会——Ruby IDE(或者其他工具)可以获得Ruby的抽象语法树,同时避免被绑定到特定的语法分析器实现上。例如,一个基于Java的IDE可以在开启JRuby的同时使用ruby_parser进行语法分析。为了达到这一目的,目前版本的ruby_parser需要在输出中增加源代码位置的信息,例如,每个抽象语法树的节点需要了解其在源代码中开始和结束位置的偏移。这对源代码工具来说至关重要,因为虽然纯粹的语法树结构信息也很有用,但是如果工具无法了解节点在源码中的位置,它就不能对源码进行修改。

ruby_parser的另一个使用者是Rubinius。Rubinius是一个绝大部分代码使用Ruby编写的Ruby虚拟机,不过它使用的是Matz的Ruby参考实现(MRI)中所包含的语法分析器,而通过使用ruby_parser可以使Rubinius移除这一部分的C语言代码。此处还存在一个问题:“如果语法分析器是Ruby编写的需要Ruby虚拟机来运行,那么依赖语法分析器的Ruby虚拟器要如何工作?”,这是一个类似“鸡大生蛋,蛋破生鸡”问题。为了避免这个问题,在Rubinius的虚拟器中,ruby_parser的Ruby源代码会被编译为Rubinius字节码。当Rubinius启动时,它通过读取ruby_parser的字节码文件——这些文件不需要进行语法分析——来运行一个Ruby语法分析器。

对于ruby_parser来说,还有许多工作要做。发布说明中列出了其中的一些问题:

  • 已知问题: 速度还很不尽如人意。运行5500个测试用例目前需要21分钟。
  • 已知问题: 代码有些难看。不过这不全是我的错,我会尽快改进这一状况。
  • 已知问题:目前还不支持newline节点。
  • 已知问题:功能还可以更加强大。
  • 已知问题:ParseTree中的dasgn_curr声明可能会乱序。
  • 待做事情:加入注释节点。
查看英文原文:ruby_parser 1.0: a Ruby Parser written in Ruby
有用Java写的Java语法分析器么? 发表人 cao yunfei 发表于 2008年1月3日 上午1时56分
  1. 返回顶部

    有用Java写的Java语法分析器么?

    2008年1月3日 上午1时56分 发表人 cao yunfei

    Java语法分析器对于Java会有什么好处?

深度内容

和Google互补的搜索引擎Wolfram|Alpha

Wolfram|Alpha与Google究竟是什么关系,Wolfram|Alpha自己是如何定位的?Wolfram|Alaph在多大程度上是语义网搜索呢?InfoQ中文站就等等这些问题采访了Wolfram研究公司中国区商务经理王翔。

SOA契约成熟度模型

本文说明了所推荐的契约版本管理设计策略是如何与SOA成熟度模型发生联系的。文章目的是为实现版本管理和可组合性提供一个路线图。

数据服务简介

Vijay Narayanan在这篇文章中对数据服务的几个方面进行了介绍,它们都是SOA实践者和数据架构师感兴趣的内容。本文对数据服务的几个方面进行了介绍,包括需求定义,基本原理和好处、范围、开发以及消费模式。

分块云计算

在本文中,Jimmy Nilsson描述了一种他在过去数年间观察到的一种正在缓慢成长的架构风格,他把这种风格称为“分块云计算”。

豆瓣网技术架构变迁

罗马不是一天建成的,豆瓣的技术架构也是随着用户规模的增长一直在持续变化中。在本次演讲中,豆瓣的首席架构师洪强宁将与大家一起分享从上线时的单台服务器架构开始一直到现在的豆瓣架构变迁历程。

融合思想:深入探索S#arp架构

Billy McCafferty展示了S#arp架构,它在ASP.NET MVC框架的基础上,荟萃了当今的最佳实践,应用在ASP.NET Web应用程序的架构设计中。

王雷谈开源以及新兴市场计划

中国作为新兴市场中的新兴市场,是Sun在美国之外实施SSE(SUN Startup Essentials)项目重点关注的地区。在QCon Beijing 2009期间,InfoQ中文站有幸对此项目的负责人王雷先生进行了采访,探讨了关于开源、新兴市场、SSE等话题。

使用HTML5构建下一代的Web Form

HTML5 是由 WHATWG发起的,最开始的名称叫做Web Application 1.0,而后这个标准吸纳了Web Forms 2.0的标准,并一同被W3C组织所采用,合并成为下一代的HTML5标准。