InfoQ

新闻

SQL Server 2008中的新特性——稀疏列、条件过滤索引和列集

作者 Jonathan Allen 译者 张海龙 发布于 2008年9月7日 上午1时23分

社区
.NET
主题
SQL Server
标签
SQL Server 2008

Sparse Columns(稀疏列), Filtered Indexes(条件过滤索引)和Column Sets(列集)是SQL Server 2008中的新特性,它们使我们可以打破1024个列的限制,以及有效地节省磁盘空间,但是,如果使用不当的话,它们就会成为灾难之源。

如其名称所暗示,Spare Column就是为了解决某些列中通常情况下为null值的情形而设计,它节省磁盘空间的能力很是惊人,但是,我们只有在某个列符合如下条件时才能将其定义为该类型。

第一个规则就是一个需要被定义为Sparse Column的列必须是真正稀疏的。当值为null时,数据指针就完全不占用空间,就像这个列不存在一样。但如果是任何其它值,它将会比其它类型的列多占用4个字节的空间。这一规则对bit列(位列)也是有效的,在非null值的情况下,该列值所占用的空间将从0.125字节增长到4.125字节,据此,我们可以算出将bit列定义成Sparse列的临界值是必须要有98%的行值是null。对于其它大一些的字段来说,就会更容易看到空间收益,例如,datetime列的临界值是只要达到52%的行值为null就划算。在这些示例中的临界点我们可以看出,使用Sparse Column时可以节省至少40%的空间。SQL Server在线图书有一个Sparse列定义图表 ,显示了对于各种不同的列类型,在哪种情况下我们才考虑将其定义为Sparse列。

第二个规则是,要时刻记住尽量使用Sparse列进行索引。如果使用普通索引的话,即使你并不打算对它进行查询,它也会因为null值浪费大量的空间。解决方案就是SQL Server的另一个被称作“Filtered Index(条件过滤索引)”的新特性。一个过滤索引有一个where子句用于防止对那些不满足指定条件的行进行索引。对于Sparse列而言,这个条件显然就是where “column_name IS NOT NULL”。

Sparse列的另一个特点就是会比普通的列要慢,所以,对于那些对CPU性能敏感胜过I/O的查询,应该考虑避免使用Sparse列,这是一个判断是否使用Sparse列的边界条件。

如果不能使用Sparse列的话,在普通的列上建立Filtered Index也是一种替代方案,它既能有效地缩小索引占用的空间,又能避开Sparse列的限制。如前所述,在过滤时,可以在判断该列的行值是否为空以外,增加一些其它的过滤条件。

如果你想打破1024个列的限制,那就必须寻求Column Set的帮助。Column Set允许我们在查询时将超出1024以外的列捆绑到一个单独的XML列中。

根据Yao Qingsong的介绍,微软因为客户的需要保留了1024个列这一限制,

为了能创建多于1024个列,我们必须在表中定义一个columnset列。我们明确地提出这一点,是因为客户不能接受超过1024个列,而我们又不愿意让用户因这一问题无法获取数据。一旦表中定义了columnset列,select *语句将会隐藏所有的Sparse列,代之以这个columnset列。但是,用户仍然可以在查询中select到每个独立的sparse列。

Column Set列必须在表的原始设计中进行定义,如果表中已经有了任意一个Sparse列,就不允许再添加Column Set列。但是,一旦定义了Column Set列,新添加的Sparse列会被自动地添加到Column Set列中。

尽管Column Set看上去是XML,但要尽量小心避免修改它,因为那样做的话会导致它无法再被映射到被绑定的列。

查看英文原文Sparse Columns, Filtered Indexes, and Column Sets

深度内容

和Google互补的搜索引擎Wolfram|Alpha

Wolfram|Alpha与Google究竟是什么关系,Wolfram|Alpha自己是如何定位的?Wolfram|Alaph在多大程度上是语义网搜索呢?InfoQ中文站就等等这些问题采访了Wolfram研究公司中国区商务经理王翔。

SOA契约成熟度模型

本文说明了所推荐的契约版本管理设计策略是如何与SOA成熟度模型发生联系的。文章目的是为实现版本管理和可组合性提供一个路线图。

数据服务简介

Vijay Narayanan在这篇文章中对数据服务的几个方面进行了介绍,它们都是SOA实践者和数据架构师感兴趣的内容。本文对数据服务的几个方面进行了介绍,包括需求定义,基本原理和好处、范围、开发以及消费模式。

分块云计算

在本文中,Jimmy Nilsson描述了一种他在过去数年间观察到的一种正在缓慢成长的架构风格,他把这种风格称为“分块云计算”。

豆瓣网技术架构变迁

罗马不是一天建成的,豆瓣的技术架构也是随着用户规模的增长一直在持续变化中。在本次演讲中,豆瓣的首席架构师洪强宁将与大家一起分享从上线时的单台服务器架构开始一直到现在的豆瓣架构变迁历程。

融合思想:深入探索S#arp架构

Billy McCafferty展示了S#arp架构,它在ASP.NET MVC框架的基础上,荟萃了当今的最佳实践,应用在ASP.NET Web应用程序的架构设计中。

王雷谈开源以及新兴市场计划

中国作为新兴市场中的新兴市场,是Sun在美国之外实施SSE(SUN Startup Essentials)项目重点关注的地区。在QCon Beijing 2009期间,InfoQ中文站有幸对此项目的负责人王雷先生进行了采访,探讨了关于开源、新兴市场、SSE等话题。

使用HTML5构建下一代的Web Form

HTML5 是由 WHATWG发起的,最开始的名称叫做Web Application 1.0,而后这个标准吸纳了Web Forms 2.0的标准,并一同被W3C组织所采用,合并成为下一代的HTML5标准。