BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

字符编码和M17N详解

| 作者 Mirko Stocker 关注 1 他的粉丝 ,译者 杨晨 关注 0 他的粉丝 发布于 2009年5月19日. 估计阅读时间: 2 分钟 | QCon上海2018 关注大数据平台技术选型、搭建、系统迁移和优化的经验。

James Edward Gray II近期发表了十个同一系列名为《Understanding M17n》的文章,均是关于Ruby的字符编码问题。

Ruby 1.9做出了很多关于字符支持的修改,现在能够很好地支持多种和混合字符编码了。这些需求是在一些项目中确实存在的,尤其是为全世界用户开发的开源项目中。

他从基础开始讲起,介绍了什么是Unicode以及其编码方式,接着发表了一些Ruby 1.8的帖子,例如使用iconv进行编码以及Ruby 1.8是如何处理Unicode的。然后综合论述了Ruby 1.9的String以Ruby 1.9和其他语言的区别:

通常开发者都会选择一个全能的编码,例如Unicode编码,然后所有的数据都会是这个编码格式。Ruby 1.9采取了一种不同的方法。它不仅仅局限于选择一种编码,Ruby 1.9能够同时处理超过80种编码的数据。

Ruby 1.9的m17n的一个新特性是三种默认编码,而Ruby 1.8只有单一的全局变量。但是为什么我们需要这么多编码呢?考虑以下的情景:

我也许希望我的代码是UTF-8的,但是一些日本程序员希望它们的代码是Shift JIS。Ruby应该支持这个,确实1.9也支持了这个特性。我们把这个情景搞复杂一点:想像一下我把我的UTF-8的代码打包到一个gem之后,有日本程序员希望在它的Shift JIS代码重使用这个gem。我们如何无缝地进行工作?

阅读关于Ruby 1.9的三种默认编码的主题。 最后一篇文章包含了各种话题,例如在二进制数据编码和正则表达式数据编码。

阅读完这十个主题之后,你应该已经明白了Ruby 1.9的强大的m17n特性以及给你带来的灵感,即使你仍然打算现在坚守在Ruby 1.8的平台上。如果你并不足够了解Unicode,如果还没有读过的话,你也许需要阅读一下Joel Spolsky的传世之作《The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)》

查看英文原文:Character Encodings and M17N Explained

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT