BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

2010年大规模技术架构的思路

| 作者 杨卫华 关注 0 他的粉丝 发布于 2010年3月17日. 估计阅读时间: 7 分钟 | QCon上海2018 关注大数据平台技术选型、搭建、系统迁移和优化的经验。

相比其他行业,IT技术由于信息流动便捷,新技术更新非常频繁。架构师经常面临新技术及传统方案选择的困惑。架构师应如何抓住本质构建新一代的应用?本文从几个方面提出一些思路供架构师参考。

编程语言

2009年编程语言领域也发生了不少变化。虽然架构师通常都表示编程语言并不重要,但事实上每一次大的语言改进还是对业界产生非常大的影响,同时大部分技术团队也依赖某一两种编程语言。下面介绍几种值得架构师关注的语言及热点。

Erlang近几年在并发编程与分布式领域比较受关注。2009年11月7~8日在杭州举办了第四次Erlang全国开发者大会(CN Erlounge IV)。从会议主题及参会者的讨论来看,Erlang在2009年在一些先行项目中取得了不错的效果,同时Erlang的并发编程思想也在其他语言得到了一些借鉴和应用。预计2010年Erlang会继续在小圈子内流行,目前业界应用Erlang技术最大的障碍不是Erlang技术本身,而在于缺乏这方面专业人才,与C++/Java相比,Erlang暂时不具备大规模团队协同开发的条件。

Scala也是一门和Erlang类似的函数式编程语言, 由于Scala是基于成熟JVM并具有丰富的周边library,因此相比于Erlang切换成本和风险都低很多。尤其是Java团队如果希望利用函数式及并发编程优势的可以关注。

2009年11月,Google发布了一种新的语言Go,它在系统编程领域具有很多优势,如支持goroutine并行编程模型,支持GC,编译速度快等。很多系统程序员表示Go就是他们心中的“梦中情人”。但是由于刚推出不久的缘故,Go还是不适合在生产环境使用,建议保持跟进。

在网页编程领域,PHP仍然是Web页面编程语言首选。如Facebook谈到选择PHP的原因是“开发效率高,支持快速的产品迭代”。2010年2月,Facebook开源了HipHop框架,在PHP业界引起较大的轰动。它将PHP编译成C++执行,可以提高性能50%。据Facebook博客上的资料,HipHop发布仅半年之后,Facebook 90%的Web服务器都用上了HipHop。据估算,Facebook每月有4000亿页面访问,则HipHop承担了3600亿。如果节省50%服务器的开销,那将是非常大的节省。希望在2010年国内的PHP开发者也能充分利用HipHop的成果。

Ruby由于具有快速的开发效率,近年来在Web开发领域异军突起。首届中国Ruby大会2009年5月21日上海召开,Ruby创始人Matz也亲自来华做了主题演讲。从大会来看Ruby社区在国内已经比较蓬勃。预计在2010年Ruby会在企业应用和部分互联网Web应用中得到更广泛的使用。

存储:从Cache、数据库到分布式文件系统

Web 2.0的设计中,Cache会成为一个中心元素。传统的web应用瓶颈通常在数据库或者应用程序上,但是最近Twitter的一篇技术博客的分析,Twitter广为人知的“鲸鱼”故障的罪魁祸首竟然是Memcached。因此最近技术界流传一句新的名言,“Disk is the new Tape,RAM is the new Disk。”意思就是说传统SQL存储已经像旧的磁带机一样成为应用的瓶颈,需要把一切数据都放在内存里面才能满足新的应用需求。另一Web 2.0应用巨头Facebook也广泛使用Memcached,据称每秒访问量达2亿次以上。

在2009年数据库受到NoSQL运动的冲击。NoSQL是指用非关系数据库的方式来存储数据,通常也指用key value方式存储。比较有名的有Tokyo Cabinet, Redis, Cassandra等。由于大部分Web应用的需求是基于主键查询,同时业务上又常常面临更改表结构字段的需求。如果将所有数据内容作为一个value字段存入,相对于SQL模式,使用更简洁,维护方便。在性能上一些key value产品比传统的SQL在小数据访问性能上有一个数量级的提升。因此key value存储迅速被业界接受及采用。

分布式文件存储也具有广泛需求,目前开源的解决方案有HadoopFS,MogileFS等。很多互联网公司目前也借鉴GFS来开发自己分布式存储产品。

可扩展架构:从手工切分到云服务

LAMP是一种经典的Web架构设计,他指用Linux, Apache,MySQL,PHP来搭建Web架构。当Web请求量增大到单台服务器没法承载时典型解决方案是对应用服务器及数据库进行切分。目前切分大部分是借鉴LiveJournal模式,由于LiveJournal架构设计甚至大部分源代码都是公开的,因此在过去很多架构师设计LAMP扩展通常是在LiveJournal基础上作出改进。

从2009年开始,由于云计算的蓬勃发展,LAMP发生了两大变化。首先,部分原先用数据库如MySQL的场合开始被key value 存储代替。分布式的key value存储产品本身解决了扩展,负载均衡,复制,数据一致性等问题。无需架构师手工编写代码解决数据过大后的分表问题。

另外一个变化是PHP/Python/Java等语言可以运行在一个App Engine的容器上,这个容器可以托管一个几行代码的hello world项目,也可以承载上千万访问量的用户的大型项目。App Engine自身具有可扩展性,容错性,负载均衡,用户可以自动访问最近的IP等特性。它对于需要架构师根据业务来切分的传统做法是一种全新体验。

在2010年,分布式存储及App Engine模式是架构师需要考虑的两大方向。

相关内容淘宝网架构师岳旭强的年度展望


个人简介:杨卫华,新浪产品事业部技术经理,目前工作以开发高并发的分布式应用为主。对互联网后端技术,分布式,网络编程,XMPP即时通讯等领域感兴趣。曾组织多次广州及珠三角技术沙龙活动。个人blog为:http://timyang.net/

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家加入到InfoQ中文站用户讨论组中与我们的编辑和其他读者朋友交流。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

关注你的分享 by ma lionbule

“另一Web 2.0应用巨头Facebook也广泛使用Memcached,据称每秒访问量达2亿次以上。”这个厉害的!
你可否分享下sina的分布式服务技术架构呢?谢谢

分布式文件系统,不晓得 sina现在对此有啥好的东东分享?

不错! by jin cx

不错!

说说 by zehe chen

"Twitter广为人知的“鲸鱼”故障的罪魁祸首竟然是Memcached"
是罪魁祸首,下面怎么还说“另一Web 2.0应用巨头Facebook也广泛使用Memcached,据称每秒访问量达2亿次以上”???

Re: 说说 by liu milel

“鲸鱼故障”,作者应该是为了突出mm之于tt的重要地位,所以后面也还是在强调mm

Re: 关注你的分享 by Yang Tim

“另一Web 2.0应用巨头Facebook也广泛使用Memcached,据称每秒访问量达2亿次以上。”这个厉害的!
你可否分享下sina的分布式服务技术架构呢?谢谢

分布式文件系统,不晓得 sina现在对此有啥好的东东分享?


新浪去年开源了系列产品,如sina dynamod是一个分布式的key value存储,code.google.com/p/sina-sdd/ 有兴趣你可以关注下。

Re: 说说 by Yang Tim

milelf 回答很正确,我文中本意是强调memcached是twitter中的核心模块,所以一旦有点小问题就影响全局。"RAM is the new DISK"

一群小luoluo在吹牛b by - 博文 1公子

一群小luoluo在吹牛b

缺少基于J2EE方面 by 金 国建

确实不错,我具体觉得缺少关于java架构方面的相关介绍

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

8 讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT