InfoQ

新闻

数据正规化真的那么好吗?

作者 Arnon Rotem-Gal-Oz 译者 胡键 发布于 2007年8月15日 上午5时5分

社区
Architecture
主题
数据访问,
设计
标签
数据库

正规化(Normalization)是数据库设计的基础之一。最近,关于正规化的一些讨论中正在形成一种观点,即将反正规化(Denormalization)作为一种更具伸缩性的解决方案。

几星期前,Pat Helland在其博客给出一个简短介绍,称“正规化适合于胆小鬼”。Pat一开始就声称(很明显)我们正规化是为了避免更新异常,但接下来做出了一系列有趣的短评:

  • 许多类型的计算问题本质上是只增(Append-Only)的,用他的话来说是“会计不使用橡皮擦”。因此,对于不变的数据没有必要去进行正规化(除非你真的需要那些空间)。
  • 开发者使用“完整的”业务对象来工作。这些业务对象总是反正规化的完整视图。

作为另一个博客,你可以很容易驳回Pat的言论——除非你注意到Pat有与数据库系统长期为伍的经历,这包括,如作为SQL Server Service Broker的首席架构师、COM+团队的奠基人之一。Pat还花了几年时间为Amazon工作——并且Werner Vogels(Amazon的CTO)确实提过可以考虑反正规化实体,以得到更好的伸缩性和效率。这些言论是他在QCon上关于可用性和一致性(最近发布于此)的演讲中提及的。

Andres Aguiar评论说,除了“无需正规化不变数据”,你甚至都不需要删除数据:

另一个想法是,你事实上都不需要删除/更新数据库。“删除”一行意味着设置InvalidationTimestamp = now(),更新一行意味着设置InvalidationTimestamp = now()的同时新增一行,使其SinceTimestamp= now()且InvalidationTimestamp = null(你实际上需要两组日期,这将在另一篇帖子里讨论)。现在,如果你把两个想法合在一起,那么所有的数据都是不变的,所以你不需要正规化任何东西。

通过分析这一点,Andres提到一个障碍:这种情形下会使每张表产生大量数据行(译注:原文是column,但根据上下文的意思,应该是数据行才更有意义。),而数据库并未准备好应对这种情形。如果你归档更老的数据,那么它是可以得到解决的。

Dare Obasanjo认为

“数据库反正规化是一种效率优化,但这应该作为最后一道防线。应该在创建数据库索引、使用SQL视图和实现应用特定的内存缓存之后。”

然而,Dare认同:当你需要大规模计算时,你可能需要反正规化,并举Flickr为例。

正如Cal Henderson(Flickr的Web开发领导)在2004年关于Flickr架构演讲中所说的:Join效率低下(27页)。作为结论:

* 正规化的数据适合于胆小鬼
* 多处保存数据的多重副本
* 让搜索更快些
* 必须在应用逻辑中确保一致性

一篇由Jason Kottke于2004年撰写的博文中,表露出了与Pat的博文和Cal演讲中第一点类似的观点。Jason解释,在Flickr的情形中,每次Insert/Delete或Update会有13次Select,这是他们为什么选择反正规化的原因。

Pat在其介绍的结尾总结:

“人们正规化‘因为他们的教授这么说的’”

是时候反思数据库正规化的咒语了吗?一些更大的网站似乎这么认为,你的感觉呢?

查看英文原文:Data normalization, is it really that good?

关系型数据库的生命周期即将走向结束 发表人 Mike Meng 发表于 2007年8月16日 上午2时54分
Re: 关系型数据库的生命周期即将走向结束 发表人 gpy good 发表于 2007年8月16日 下午10时41分
Re:数据正规化真的那么好吗? 发表人 firefly sen 发表于 2007年8月28日 下午6时59分
  1. 返回顶部

    关系型数据库的生命周期即将走向结束

    2007年8月16日 上午2时54分 发表人 Mike Meng

    其实这个问题每个做数据库程序的人都遇到过,很多时候会搞本本主义,被学院派的家伙们误导,弄得自己很笨拙。 不过,在深层次上,关系型数据库本身就是学院派的产物,这个问题是关系型数据库本质缺陷的一个体现,随着IT广度和深度的不断拓展,关系型数据库的缺陷会越来越突出,最终退出主流。

  2. 返回顶部

    Re: 关系型数据库的生命周期即将走向结束

    2007年8月16日 下午10时41分 发表人 gpy good

    我本来以为自己是最笨的人了,直到有一天遇到比我更笨的人,才发现,原来我很聪明呀.天下的sb真多,还好,不止我一个

  3. 返回顶部

    Re:数据正规化真的那么好吗?

    2007年8月28日 下午6时59分 发表人 firefly sen

    正如一楼的说的那样,这个玩意太学院派了。那些老古董没完没了的在教导我们规范是多么多么多么重要,是多么多么有学问的一件事情,试一试db4o吧~爽歪歪~~~呵呵

深度内容

和Google互补的搜索引擎Wolfram|Alpha

Wolfram|Alpha与Google究竟是什么关系,Wolfram|Alpha自己是如何定位的?Wolfram|Alaph在多大程度上是语义网搜索呢?InfoQ中文站就等等这些问题采访了Wolfram研究公司中国区商务经理王翔。

SOA契约成熟度模型

本文说明了所推荐的契约版本管理设计策略是如何与SOA成熟度模型发生联系的。文章目的是为实现版本管理和可组合性提供一个路线图。

数据服务简介

Vijay Narayanan在这篇文章中对数据服务的几个方面进行了介绍,它们都是SOA实践者和数据架构师感兴趣的内容。本文对数据服务的几个方面进行了介绍,包括需求定义,基本原理和好处、范围、开发以及消费模式。

分块云计算

在本文中,Jimmy Nilsson描述了一种他在过去数年间观察到的一种正在缓慢成长的架构风格,他把这种风格称为“分块云计算”。

豆瓣网技术架构变迁

罗马不是一天建成的,豆瓣的技术架构也是随着用户规模的增长一直在持续变化中。在本次演讲中,豆瓣的首席架构师洪强宁将与大家一起分享从上线时的单台服务器架构开始一直到现在的豆瓣架构变迁历程。

融合思想:深入探索S#arp架构

Billy McCafferty展示了S#arp架构,它在ASP.NET MVC框架的基础上,荟萃了当今的最佳实践,应用在ASP.NET Web应用程序的架构设计中。

王雷谈开源以及新兴市场计划

中国作为新兴市场中的新兴市场,是Sun在美国之外实施SSE(SUN Startup Essentials)项目重点关注的地区。在QCon Beijing 2009期间,InfoQ中文站有幸对此项目的负责人王雷先生进行了采访,探讨了关于开源、新兴市场、SSE等话题。

使用HTML5构建下一代的Web Form

HTML5 是由 WHATWG发起的,最开始的名称叫做Web Application 1.0,而后这个标准吸纳了Web Forms 2.0的标准,并一同被W3C组织所采用,合并成为下一代的HTML5标准。