InfoQ

新闻

架构Twitter

作者 Steven Robbins译者 王丽娟 发布于 2008年6月22日 下午9时40分

社区
Ruby,
Architecture
主题
数据库设计,
性能和可伸缩性,
Web 2.0
风行的社交应用Twitter,其底层架构最近已成为多次讨论的焦点。由于团队试图解决一些问题,Twitter已经有几次停止运行的情况,并关闭了几个常用的功能。从Twitter的前进脚步之中,我们能学到些什么呢?

包括Om MalikDare Obasanjo在内的几个人猜测是Twitter的底层架构导致了这些问题的出现。最近,Robert Scoble就应用情况和公司前景采访了Twitter的Evan Williams和Biz Stone。采访的视频可在qik上找到。

在采访中,Williams和Stone回答了关于Twitter数据架构的大问题:Twitter是否使用单实例存储(SIS)类型的方法来处理用户消息?在大约13分钟的采访记录中,Williams谈到了消息存储和用户时间线检索:
它不是这么处理的(为用户的每个跟随者都产生一个消息副本),但实际上这可能更有效率。现在消息存储到数据库中,当人们想获取他们的时间线时,我们从数据 库中构造时间线,然后缓存到内存中,当然不是每次都缓存。但由于内容写入太频繁,我们往往也要频繁地访问数据库,而这只是为了更新缓存。所以缓存中有很多 消息副本,而在磁盘上却只有一条消息。我们以后的架构可能更多的是以多次写入的方式,因为读取在这种方式下将快更多。
从SIS消息架构迁移的可能性为利用像数据Sharding这样的数据技术开启了一扇大门,数据Sharding技术已经在许多高容量网站和应用中广受欢迎。Randy Shoup谈到了eBay通过部分利用Sharding来架构系统的方式,以此获得高可伸缩性:
数据库层次的问题比较有挑战性,原因是数据天生就是有状态的。我们会按照主要的访问路径对数据做水平分割(或称为“Sharding”)。例如用户数据目 前被分割到20台主机上,每台主机存放1/20的用户。随着用户数量的增长,以及每个用户的数据量增长,我们会增加更多的主机,将用户分散到更多的机器上 去。商品数据、购买数据、帐户数据等等也都用同样的方式处理。用例不同,我们分割数据的方案也不同。
Bogdan Nicolau写过一篇为数据库Sharding基础的概述。在该系列中,Bogdan讨论了如何决定在何处、以及如何为应用分割数据。决定时的主要一点是:
我试图表达的是,无论你选择什么逻辑来切分表,总是要记住你不想有任何join、order by、或limit语句,这些语句会需要不止一个的表Shards。
Bogdan继续谈论了应用端对Shards的利用。Bogdan提供了几个代码例子来解释一个典型问题,同时还解释了背后的原理:
正如你所看到的,因为要生成映射表,负担主要落在了写入一方。读取时就不需要关心涉及的数据切分算法了。
随着众人参与关于如何扩展Web 2.0的讨论,Twitter也许将继续向一个更稳定、可伸缩的架构迈进。

InfoQ有许多性能和可伸缩性相关的资源,在这里查看这些资源
查看英文原文:Architecting Twitter

相关赞助商

[[InfoQ中文站架构社区|http://www.infoq.com/cn/architecture/],关注设计、技术趋势以及架构师所感兴趣的话题,通过新闻、文章、视频访谈和演讲以及迷你书等为中国架构社区提供一流资讯。

没有回复

回复

独家内容

虚拟化导论

人们很容易想当然的以为虚拟化技术仅仅应用于服务器。而在现实中,虚拟化这一苏醒的概念正被运用于各个层面,其中包括网络,存储以及应用基础架构。在这篇导论中,InfoQ将深入每个方面,详尽向您描述虚拟化技术的运用以及其优点与不足。

用户故事估算技巧

作为开发者,同时也是ThoughtWorks的咨询师,Jay Fields总结了自己估算用户故事的有效技巧。

InfoQ案例研究:纳斯达克市场回放

在这篇案例研究中,InfoQ对Adobe AIR和Amazon的简单存储服务(Simple Storage Service ,S3)在NASDAQ市场回放程序(NASDAQ Market Replay)中的应用进行了详细的分析。

Hadoop基本流程与应用开发

本文介绍了Hadoop的基本流程、业务场景、代码范例以及集成测试。本文是《分布式计算开源框架Hadoop入门实践》三部曲的最后一部。

SOA在互联网系统中的应用

本视频对SOA在互联网系统中的应用进行了探讨,主要以支付宝在SOA的实践为例,主题从敏捷的应用程序(对象与组件)到敏捷的企业系统(应用集成与面向服务),再到敏捷的生态圈(网关与开放平台)。

用数字沟通——来自敏捷精灵的忠告

因为不知道如何反击,技术人员不得不听从业务人员的要求。这已经是老生常谈了。问题何在?开发人员用数字主要是进行计算的,而业务人员使用数字辅助决策。在下面的故事中,“敏捷精灵”鼓励一个开发人员用数字来描述与计算无关的问题。

Hadoop中的集群配置和使用技巧

本文介绍了Hadoop如何配置分布式框架运行环境,同时特别讲解了其中的一些细节。Hadoop可以单机跑,也可以配置集群跑,这里主要重点说一下集群配置运行的过程。本文是Hadoop入门实践三部曲的第二部。

JavaScript多线程编程简介

虽然有越来越多的网站在采用AJAX技术,但是开发复杂的AJAX应用仍然是个难题。本文探索了如何应用多线程缓解其中一些问题。