InfoQ

InfoQ

新闻

我的书签

登录注册 以永久保存书签。

该内容已经被标记书签!

标记书签错误,请重试!

SQL Server 2008中的新特性——稀疏列、条件过滤索引和列集

作者 Jonathan Allen 译者 张海龙 发布于 2008年9月7日

领域
运维 & 基础架构,
语言 & 开发
主题
.NET ,
SQL Server
标签
SQL Server 2008

Sparse Columns(稀疏列), Filtered Indexes(条件过滤索引)和Column Sets(列集)是SQL Server 2008中的新特性,它们使我们可以打破1024个列的限制,以及有效地节省磁盘空间,但是,如果使用不当的话,它们就会成为灾难之源。

如其名称所暗示,Spare Column就是为了解决某些列中通常情况下为null值的情形而设计,它节省磁盘空间的能力很是惊人,但是,我们只有在某个列符合如下条件时才能将其定义为该类型。

第一个规则就是一个需要被定义为Sparse Column的列必须是真正稀疏的。当值为null时,数据指针就完全不占用空间,就像这个列不存在一样。但如果是任何其它值,它将会比其它类型的列多占用4个字节的空间。这一规则对bit列(位列)也是有效的,在非null值的情况下,该列值所占用的空间将从0.125字节增长到4.125字节,据此,我们可以算出将bit列定义成Sparse列的临界值是必须要有98%的行值是null。对于其它大一些的字段来说,就会更容易看到空间收益,例如,datetime列的临界值是只要达到52%的行值为null就划算。在这些示例中的临界点我们可以看出,使用Sparse Column时可以节省至少40%的空间。SQL Server在线图书有一个Sparse列定义图表 ,显示了对于各种不同的列类型,在哪种情况下我们才考虑将其定义为Sparse列。

第二个规则是,要时刻记住尽量使用Sparse列进行索引。如果使用普通索引的话,即使你并不打算对它进行查询,它也会因为null值浪费大量的空间。解决方案就是SQL Server的另一个被称作“Filtered Index(条件过滤索引)”的新特性。一个过滤索引有一个where子句用于防止对那些不满足指定条件的行进行索引。对于Sparse列而言,这个条件显然就是where “column_name IS NOT NULL”。

Sparse列的另一个特点就是会比普通的列要慢,所以,对于那些对CPU性能敏感胜过I/O的查询,应该考虑避免使用Sparse列,这是一个判断是否使用Sparse列的边界条件。

如果不能使用Sparse列的话,在普通的列上建立Filtered Index也是一种替代方案,它既能有效地缩小索引占用的空间,又能避开Sparse列的限制。如前所述,在过滤时,可以在判断该列的行值是否为空以外,增加一些其它的过滤条件。

如果你想打破1024个列的限制,那就必须寻求Column Set的帮助。Column Set允许我们在查询时将超出1024以外的列捆绑到一个单独的XML列中。

根据Yao Qingsong的介绍,微软因为客户的需要保留了1024个列这一限制,

为了能创建多于1024个列,我们必须在表中定义一个columnset列。我们明确地提出这一点,是因为客户不能接受超过1024个列,而我们又不愿意让用户因这一问题无法获取数据。一旦表中定义了columnset列,select *语句将会隐藏所有的Sparse列,代之以这个columnset列。但是,用户仍然可以在查询中select到每个独立的sparse列。

Column Set列必须在表的原始设计中进行定义,如果表中已经有了任意一个Sparse列,就不允许再添加Column Set列。但是,一旦定义了Column Set列,新添加的Sparse列会被自动地添加到Column Set列中。

尽管Column Set看上去是XML,但要尽量小心避免修改它,因为那样做的话会导致它无法再被映射到被绑定的列。

查看英文原文Sparse Columns, Filtered Indexes, and Column Sets

深度内容

大规模视频网站的计费与流量管理

本次分享将会就大规模视频网站的计费与流量管理这个话题,从操作层面细细进行讲解和分析,为系统工程师们揭示平日里我们没有关心的另一些内容。同时也希望本次分享能揭示行业中的一些“潜规则”,让互联网行业的流量与带宽管理更为开放与简洁。
本次演讲视频录制于QCon杭州2011

专访Jeffrey Richter:Windows 8是微软的重中之重

Jeffrey Richter以其多本Windows核心技术的经典著作而闻名,同时,他深入掌握微软的.NET等一系列核心技术,2012年1月,Jeffrey Richter在北京接受了InfoQ中文站的专访,谈到Windows 8和WinRT编程,并就异步编程、Windows编程中的可扩展性、性能和安全性方面给出自己的建议。

应用云平台的可用性——从新浪SAE看云平台设计

云计算平台的可用性,相比传统互联网服务而言,更加复杂和困难,也更具有挑战性。本文借助新浪SAE云平台为读者讲述了云平台可用性的定义、如何打造高可用的平台,以及对云计算的用户提出了建议。

JVM定制改进 @ 淘宝

淘宝高度重视Java平台的健康发展,组建了一个团队专注于Java平台的底层部分的性能、功能与稳定性改进;工作主要基于OpenJDK中的HotSpot VM开展,其中一些通用的功能随后也会逐渐反馈给OpenJDK社区。希望能与使用Java平台开发应用的大家交流经验。
本次演讲视频录制于QCon杭州2011

"伤得起"的云计算应用——对云端应用之架构的思考

2011年4月21日至22日是值得云计算从业者纪念的日子。Amazon的IaaS服务出现故障,导致许多商业网站的服务中断,影响非常严重。作为云计算用户,我们需要思考的是,如何保证即便在云服务不可用的情况,我们的应用架构仍然能够屹立不倒?本文正是站在云计算用户的角度试图探讨这一问题。

让交付的速度跟上思考的速度

12人的技术团队,4组刀片服务器,每月20亿的访问量,每日1次准时部署,99.9%的可用性。这可能吗?当然。想知道如何做的吗?百姓网将与您分享他们在DevOps实践过程中的经验和技巧。
本次演讲视频录制于QCon杭州2011

架构之路——穿行在产品和业务之间

篱笆作为一家起源于社区的电子商务公司,反映到技术层面就是同时要面对产品和业务,以及经营战略的变化调整。如何在产品和业务的夹缝之间完成技术架构的抽象与平衡,寻找更有效的价值定位,这当中有些经验教训和个人感悟愿与众人分享。
本次演讲视频录制于QCon杭州2011

特性注入:成功三部曲

本文将对特性注入以及相关方法做一个扫盲性的介绍。我们会解释这个框架的关键要素,并附上实例来证实它们。为了让文章保持相对较短,我们不会深入到某个工具或方法中,而是会给出一些参考资料,以便大家做进一步的研究。