InfoQ

InfoQ

新闻

我的书签

登录注册 以永久保存书签。

该内容已经被标记书签!

标记书签错误,请重试!

字符编码和M17N详解

作者 Mirko Stocker 译者 杨晨 发布于 2009年5月18日

领域
架构 & 设计,
语言 & 开发
主题
Ruby ,
动态语言 ,
语言 ,
编程 ,
Ruby 1.9 ,
文档 ,
国际化

James Edward Gray II近期发表了十个同一系列名为《Understanding M17n》的文章,均是关于Ruby的字符编码问题。

Ruby 1.9做出了很多关于字符支持的修改,现在能够很好地支持多种和混合字符编码了。这些需求是在一些项目中确实存在的,尤其是为全世界用户开发的开源项目中。

他从基础开始讲起,介绍了什么是Unicode以及其编码方式,接着发表了一些Ruby 1.8的帖子,例如使用iconv进行编码以及Ruby 1.8是如何处理Unicode的。然后综合论述了Ruby 1.9的String以Ruby 1.9和其他语言的区别:

通常开发者都会选择一个全能的编码,例如Unicode编码,然后所有的数据都会是这个编码格式。Ruby 1.9采取了一种不同的方法。它不仅仅局限于选择一种编码,Ruby 1.9能够同时处理超过80种编码的数据。

Ruby 1.9的m17n的一个新特性是三种默认编码,而Ruby 1.8只有单一的全局变量。但是为什么我们需要这么多编码呢?考虑以下的情景:

我也许希望我的代码是UTF-8的,但是一些日本程序员希望它们的代码是Shift JIS。Ruby应该支持这个,确实1.9也支持了这个特性。我们把这个情景搞复杂一点:想像一下我把我的UTF-8的代码打包到一个gem之后,有日本程序员希望在它的Shift JIS代码重使用这个gem。我们如何无缝地进行工作?

阅读关于Ruby 1.9的三种默认编码的主题。 最后一篇文章包含了各种话题,例如在二进制数据编码和正则表达式数据编码。

阅读完这十个主题之后,你应该已经明白了Ruby 1.9的强大的m17n特性以及给你带来的灵感,即使你仍然打算现在坚守在Ruby 1.8的平台上。如果你并不足够了解Unicode,如果还没有读过的话,你也许需要阅读一下Joel Spolsky的传世之作《The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)》

查看英文原文:Character Encodings and M17N Explained

译者 杨晨 对数据库和搜索引擎有深入了解,尤其擅长经典计算机科学理论,对历史学兴趣浓厚。