InfoQ

InfoQ

新闻

我的书签

登录注册 以永久保存书签。

该内容已经被标记书签!

标记书签错误,请重试!

优化使用BigTable的原则与方针

作者 Sadek Drobi 译者 郭晓刚 发布于 2008年6月29日

领域
架构 & 设计,
运维 & 基础架构
主题
性能和可伸缩性 ,
数据库设计 ,
架构
标签
数据库

从围绕着Google App Engine的大量讨论中,Todd Hoff总结出了一组优化使用分布式及高可伸缩性存储系统——如BigTable——的指导原则

Todd从定义BigTable的适用范围开始论述。由于BigTable引入的各种代价,只有在以下情况下使用BigTable才能带来益处:a)需要伸缩到巨量的用户数,b)更新与读取操作相比比例很小。Todd还着重强调为了“优化读取速度和可伸缩性”,所采取的理论路线与关系数据库中的做法存在根本的分歧,很可能初看起来是违背直觉甚至相当冒险的。

关系数据库的世界是以防止错误为根基的;以正规化(normalization)为工具消除重复和防止更新异常。为了提高可伸缩性,数据应该重复而非正规化。Flickr久悬着了这种路线,决定让“评论重复出现于评论者和被评论者两个用户数据分片中,而非单独建立一个评论关系”,因为“如果把用户数据分片作为可伸缩性的单元,就没有地方放置这种关系”。因此,虽然去正规化(denormalization)违背了“关系数据的伦理”,但它是BigTable数据范式不可缺少的组成部分。

在以上论述的基础上,Todd针对优化使用BigTable存储系统总结了若干必须牢记的原则:

  • 假定数据访问是较慢的随机访问而非较快的连续访问。

因为“在BigTable里数据可能放在任何地方[……],平均读取时间可能相对较高”。

  • 为并发读取对数据进行分组

为了最大程度提高并发读取,应该去正规化。也就是说,“应该改变实体的存储方式,使得一次读取操作即可读出整个实体,避免执行会导致多次读取的join操作”,并且“将属性复制到需要使用它们的地方。”

  • 磁盘和CPU都很便宜,不要再为它们操心,尽力提高可伸缩性吧

“[……]你的应用可以任意地扩大规模,只要简单地增加新机器就可以了。所有可伸缩性瓶颈都已消除。”

  • 围绕数据的用途来决定数据的结构

要提高查询速度,数据的格式应该尽可能与数据被使用时的格式接近。因此Hoff主张用“以应用为出发点的实体取代SQL集合”。必须强调“这种方式不同于面向对象的数据库”。行为不是绑定到实体上的,而是由应用提供的,“多个应用可以读取相同的实体,却实现截然不同的行为”。

  • Compute attributes at write time.

这样可以“最小化读取时的工作量”,并能防止“应用程序遍历大量的数据”,因为这种操作是低效的。

  • 创建大型的实体,允许可选的字段

放弃正规化和建立大量小实体的旧做法,应该“创建大型的实体,允许可选的字段,以便一次操作即可读取出全部需要的数据,运行时再确定存在那些字段”。

  • 在模型中定义Schema

为了在去正规化的条件下,保证数据跨多个实体的一致性,schema必须“在代码中定义,因为那是唯一能跟踪所有关系和保证数据正确性的地方。”

  • 用Ajax隐藏更新操作。

以小的增量更新数据库是有利的。

  • Put是昂贵的

由于“在一次查询中能执行的根新数量十分有限”,Todd建议“执行小批量的更新,并且由外部CPU来驱动。”

  • 按显式费用模型设计

“点击查询表单的OK按钮,表示你确定准备为GAE的数据库操作而付费。”

  • 将many-to-many关系包含到实体中,但减少关联元素的数量

由于“维护一个较大的列表相对低效”,所以应该“尽量将列表中元素的数量减到最小。”

  • 避免无限制条件的查询

Todd建议只显示某字段最新的少量记录,因为“大的查询伸缩性不佳”。

  • 避免出现对数据存储实体的争用

应该“避免全局计数器,即跟踪记录数量,且每次请求都要更新或读取的实体。”

  • 避免庞大的实体组

“对实体组的写入是顺序执行的”,因此最好“使用小的、局部的组”。

Todd Hoff对上面的每一条原则都给出了深入的解释,对其中一些原则还引用了来自GQL讨论组的例子进行详细解说。

查看英文原文:Principles and Guidelines for an Optimized Use of BigTable

译者 郭晓刚 是InfoQ中文站架构社区编辑,创建并终结过数家软件小企业,翻译过多本技术书籍。

深度内容

大规模视频网站的计费与流量管理

本次分享将会就大规模视频网站的计费与流量管理这个话题,从操作层面细细进行讲解和分析,为系统工程师们揭示平日里我们没有关心的另一些内容。同时也希望本次分享能揭示行业中的一些“潜规则”,让互联网行业的流量与带宽管理更为开放与简洁。
本次演讲视频录制于QCon杭州2011

专访Jeffrey Richter:Windows 8是微软的重中之重

Jeffrey Richter以其多本Windows核心技术的经典著作而闻名,同时,他深入掌握微软的.NET等一系列核心技术,2012年1月,Jeffrey Richter在北京接受了InfoQ中文站的专访,谈到Windows 8和WinRT编程,并就异步编程、Windows编程中的可扩展性、性能和安全性方面给出自己的建议。

应用云平台的可用性——从新浪SAE看云平台设计

云计算平台的可用性,相比传统互联网服务而言,更加复杂和困难,也更具有挑战性。本文借助新浪SAE云平台为读者讲述了云平台可用性的定义、如何打造高可用的平台,以及对云计算的用户提出了建议。

JVM定制改进 @ 淘宝

淘宝高度重视Java平台的健康发展,组建了一个团队专注于Java平台的底层部分的性能、功能与稳定性改进;工作主要基于OpenJDK中的HotSpot VM开展,其中一些通用的功能随后也会逐渐反馈给OpenJDK社区。希望能与使用Java平台开发应用的大家交流经验。
本次演讲视频录制于QCon杭州2011

"伤得起"的云计算应用——对云端应用之架构的思考

2011年4月21日至22日是值得云计算从业者纪念的日子。Amazon的IaaS服务出现故障,导致许多商业网站的服务中断,影响非常严重。作为云计算用户,我们需要思考的是,如何保证即便在云服务不可用的情况,我们的应用架构仍然能够屹立不倒?本文正是站在云计算用户的角度试图探讨这一问题。

让交付的速度跟上思考的速度

12人的技术团队,4组刀片服务器,每月20亿的访问量,每日1次准时部署,99.9%的可用性。这可能吗?当然。想知道如何做的吗?百姓网将与您分享他们在DevOps实践过程中的经验和技巧。
本次演讲视频录制于QCon杭州2011

架构之路——穿行在产品和业务之间

篱笆作为一家起源于社区的电子商务公司,反映到技术层面就是同时要面对产品和业务,以及经营战略的变化调整。如何在产品和业务的夹缝之间完成技术架构的抽象与平衡,寻找更有效的价值定位,这当中有些经验教训和个人感悟愿与众人分享。
本次演讲视频录制于QCon杭州2011

特性注入:成功三部曲

本文将对特性注入以及相关方法做一个扫盲性的介绍。我们会解释这个框架的关键要素,并附上实例来证实它们。为了让文章保持相对较短,我们不会深入到某个工具或方法中,而是会给出一些参考资料,以便大家做进一步的研究。