InfoQ

InfoQ

新闻

我的书签

登录注册 以永久保存书签。

该内容已经被标记书签!

标记书签错误,请重试!

NoSQL架构实践(一)——以NoSQL为辅

作者 孙立 发布于 2011年2月18日

领域
运维 & 基础架构,
语言 & 开发
主题
Java ,
Websphere ,
Ruby ,
.NET ,
IBM ,
应用服务器 ,
MySQL ,
动态语言 ,
语言 ,
企业级敏捷 ,
NoSQL ,
关系型数据库 ,
编程 ,
架构 ,
敏捷 ,
数据库 ,
专栏

前面《为什么要使用NoSQL》《关系数据库还是NoSQL数据库》两篇从大体上介绍了为什么要用NoSQL,何时该用NoSQL。经常有朋友遇到困惑,看到NoSQL的介绍,觉得很好,但是却不知道如何正式用到自己的项目中。很大的原因就是思维固定在MySQL中了,他们问得最多的问题就是用了NoSQL,我如何做关系查询。那么接下来,我们看下怎么样在我们的系统中使用NoSQL。

怎么样把NoSQL引入到我们的系统架构设计中,需要根据我们系统的业务场景来分析,什么样类型的数据适合存储在NoSQL数据库中,什么样类型的数据必须使用关系数据库存储。明确引入的NoSQL数据库带给系统的作用,它能解决什么问题,以及可能带来的新的问题。下面我们分析几种常见的NoSQL架构。

(一)NoSQL作为镜像

不改变原有的以MySQL作为存储的架构,使用NoSQL作为辅助镜像存储,用NoSQL的优势辅助提升性能。

图 1 -NoSQL为镜像(代码完成模式 )

//写入数据的示例伪代码 

//data为我们要存储的数据对象 
data.title=”title”; 
data.name=”name”; 
data.time=”2009-12-01 10:10:01”; 
data.from=”1”; 
id=DB.Insert(data);//写入MySQL数据库 
NoSQL.Add(id,data);//以写入MySQL产生的自增id为主键写入NoSQL数据库

如果有数据一致性要求,可以像如下的方式使用

//写入数据的示例伪代码 
//data为我们要存储的数据对象 
bool status=false; 
DB.startTransaction();//开始事务 
id=DB.Insert(data);//写入MySQL数据库 
if(id>0){ 
    status=NoSQL.Add(id,data);//以写入MySQL产生的自增id为主键写入NoSQL数据库 
} 
if(id>0 && status==true){ 
    DB.commit();//提交事务 
}else{ 
    DB.rollback();//不成功,进行回滚 
}

上面的代码看起来可能觉得有点麻烦,但是只需要在DB类或者ORM层做一个统一的封装,就能实现重用了,其他代码都不用做任何的修改。

这种架构在原有基于MySQL数据库的架构上增加了一层辅助的NoSQL存储,代码量不大,技术难度小,却在可扩展性和性能上起到了非常大的作用。只需要程序在写入MySQL数据库后,同时写入到NoSQL数据库,让MySQL和NoSQL拥有相同的镜像数据,在某些可以根据主键查询的地方,使用高效的NoSQL数据库查询,这样就节省了MySQL的查询,用NoSQL的高性能来抵挡这些查询。

图 2 -NoSQL为镜像(同步模式)

这种不通过程序代码,而是通过MySQL把数据同步到NoSQL中,这种模式是上面一种的变体,是一种对写入透明但是具有更高技术难度一种模式。这种模式适用于现有的比较复杂的老系统,通过修改代码不易实现,可能引起新的问题。同时也适用于需要把数据同步到多种类型的存储中。

MySQL到NoSQL同步的实现可以使用MySQL UDF函数,MySQL binlog的解析来实现。可以利用现有的开源项目来实现,比如:

有了这两个MySQL UDF函数库,我们就能通过MySQL透明的处理Memcached或者Http协议,这样只要有兼容Memcached或者Http协议的NoSQL数据库,那么我们就能通过MySQL去操作以进行同步数据。再结合lib_mysqludf_json,通过UDF和MySQL触发器功能的结合,就可以实现数据的自动同步。

(二)MySQL和NoSQL组合

MySQL中只存储需要查询的小字段,NoSQL存储所有数据。

图 3 -MySQL和NoSQL组合

//写入数据的示例伪代码 

//data为我们要存储的数据对象 
data.title=”title”; 
data.name=”name”; 
data.time=”2009-12-01 10:10:01”;
data.from=”1”;
bool status=false; 
DB.startTransaction();//开始事务 
id=DB.Insert(“INSERT INTO table (from) VALUES(data.from)”);//写入MySQL数据库,只写from需要where查询的字段 
if(id>0){ 
    status=NoSQL.Add(id,data);//以写入MySQL产生的自增id为主键写入NoSQL数据库 
} 
if(id>0 && status==true){ 
    DB.commit();//提交事务 
}else{ 
    DB.rollback();//不成功,进行回滚 
}

把需要查询的字段,一般都是数字,时间等类型的小字段存储于MySQL中,根据查询建立相应的索引,其他不需要的字段,包括大文本字段都存储在NoSQL中。在查询的时候,我们先从MySQL中查询出数据的主键,然后从NoSQL中直接取出对应的数据即可。

这种架构模式把MySQL和NoSQL的作用进行了融合,各司其职,让MySQL专门负责处理擅长的关系存储,NoSQL作为数据的存储。它有以下优点:

  • 节省MySQL的IO开销。由于MySQL只存储需要查询的小字段,不再负责存储大文本字段,这样就可以节省MySQL存储的空间开销,从而节省MySQL的磁盘IO。我们曾经通过这种优化,把MySQL一个40G的表缩减到几百M。
  • 提高MySQl Query Cache缓存命中率。我们知道query cache缓存失效是表级的,在MySQL表一旦被更新就会失效,经过这种字段的分离,更新的字段如果不是存储在MySQL中,那么对query cache就没有任何影响。而NoSQL的Cache往往都是行级别的,只对更新的记录的缓存失效。
  • 提升MySQL主从同步效率。由于MySQL存储空间的减小,同步的数据记录也减小了,而部分数据的更新落在NoSQL而不是MySQL,这样也减少了MySQL数据需要同步的次数。
  • 提高MySQL数据备份和恢复的速度。由于MySQL数据库存储的数据的减小,很容易看到数据备份和恢复的速度也将极大的提高。
  • 比以前更容易扩展。NoSQL天生就容易扩展。经过这种优化,MySQL性能也得到提高。

比如手机凤凰网就是这种架构 http://www.cnblogs.com/sunli/archive/2010/12/20/imcp.html

总结

以NoSQL为辅的架构还是以MySQL架构的思想为中心,只是在以前的架构上辅助增加了NoSQL来提高其性能和可扩展性。这种架构实现起来比较容易,却能取得不错的效果。如果正想在项目中引入NoSQL,或者你的以MySQL架构的系统目前正出现相关的瓶颈,希望本文可以为你带来帮助。 


感谢张凯峰对本文的审校。

不错 发表人 haitao xie 发表于
Re: 不错 发表人 董 学杰 发表于
精彩 发表人 王 丽兵 发表于
好文! 发表人 曹 云飞 发表于
NoSQL架构实践(一)——以NoSQL为辅 发表人 lei yang 发表于
不错 发表人 Han Jie 发表于
关于nosql与缓存的一些疑惑 发表人 zhou tian 发表于
关于图3 发表人 chen sean 发表于
缺点很明显 发表人 kai cheng 发表于
Re: 缺点很明显 发表人 鲍 丹 发表于
NoSQL 发表人 xia roger 发表于
  1. 返回顶部

    不错

    发表人 haitao xie

    期待该系列的后续文章....

  2. 返回顶部

    Re: 不错

    发表人 董 学杰

    很好,期待后续。。。

  3. 返回顶部

    精彩

    发表人 王 丽兵

    期待后续的文章

  4. 返回顶部

    好文!

    发表人 曹 云飞

    来自实战的精彩总结

  5. 返回顶部

    NoSQL架构实践(一)——以NoSQL为辅

    发表人 lei yang

    这种架构模式和之前的利用Memcached类似啊.只不过,担心的是NoSql的性能有Memcached好吗?

  6. 返回顶部

    不错

    发表人 Han Jie

    期待后续

  7. 返回顶部

    关于nosql与缓存的一些疑惑

    发表人 zhou tian

    不错,学到了不少东西。但有个疑问,在方案一,NoSql作为镜像使用时,与使用类似memcached之类的缓存是不是能达到一样的效果呢?另外,关于缓存和NoSql之间的区别、各自适用的场景等,期待作者能够写文章再赐教。非常感谢

  8. 返回顶部

    关于图3

    发表人 chen sean

    用mysql意义在哪里?
    mysql的查询性能显著比各种支持非主键索引的nosql都快吗?
    手机凤凰用的是哪种nosql产品?

  9. 返回顶部

    缺点很明显

    发表人 kai cheng

    要是通过客户端手工维护了mysql 那么nosql就不会同步,这样就出错了

  10. 返回顶部

    NoSQL

    发表人 xia roger

    An interesting article about nosql solutions: www.lifeyun.com/cassandra-vs-mongodb-vs-couchdb...

  11. 返回顶部

    Re: 缺点很明显

    发表人 鲍 丹

    很明显,NOSQL并不是万金油,使用NOSQL是有一个前提的:不怎么更新数据,但是读取数据非常多!
    而且在将数据保存到MYSQL和NOSQL的时候,要注意:MYSQL中的尽量是不会改变的字段,这样索引的效率才高。而经常变化的数据则放到NOSQL中。

深度内容

书摘和访谈:ActiveMQ in Action

在这篇文章中,InfoQ对《ActiveMQ in Action》一书的合著者Bruce Snyder进行了采访,向他了解编写这本书的主要动机、ActiveMQ容器里的事务管理和消息安全,还有消息服务领域的发展趋势。

Hadoop in 360——专访360系统部总监唐会军

在前不久的Hadoop in China 2011大会上,360系统部总监唐会军接受了InfoQ的专访,谈到360公司内部对Hadoop的使用,并对Hadoop项目和HBase面临的挑战提出了自己的看法。以下是采访实录。

富交互应用前端架构

如何使用 HTML5 加速产品界面的迭代;如何使用 MVC 模式降低前端业务逻辑耦合度,来实现"前端业务逻辑和开发效率的提升"。

前端开发中的自动化构建系统

在前端开发工作中,受语言和架构所限,我们通常会开发类库或工具来解决一些常见的问题。但是这些工具往往不能很好地与系统集成,增加了工程师学习和使用的成本。针对这些问题,百度实现了一个完整的自动化构建系统。此次演讲将与大家分享这套自动化构建系统的思路和实践。

深入分析Volatile的实现原理

在Java多线程并发编程中,synchronized和Volatile都扮演着重要的角色,Volatile是轻量级的synchronized,它在多处理器开发中保证了共享变量的“可见性”。本文将深入分析在硬件层面上Inter处理器是如何实现Volatile的,通过深入分析能帮助我们正确的使用Volatile变量。

大规模SNS中兴趣圈子的自动挖掘

随着国外的facebook、twitter以及国内的人人、新浪微博等SNS及内容分享平台的逐步流行,如何从上亿的海量用户中自动挖掘兴趣圈子成为了一个有趣也非常必要的工作。本文讲述了在SNS平台下,如何对海量数据自动进行兴趣圈子挖掘。

MongoDB在盛大大数据量项目中的应用

当你为MongoDB schema-free的特性欢欣鼓舞时,却苦于无人运维;当你看到网上MongoDB性能评测相当优越,却在应用中不尽人意;当你使用MongoDB顺风顺水,心里正在窃喜不已,却被一场事故把数据搞的一塌糊涂。希望本次的分享能够解决你的一些后顾之忧。
本次演讲视频录制于QCon杭州2011

飞信开放平台的资源分配与控制策略

飞信开放平台是一个内容合作型业务,核心是通过OPEN API开放汇聚内容服务的Feed,包括微博、SNS,视频,电商等等。在一个多合作伙伴并存的开放环境中,飞信开放平台采取了多样性的资源控制策略为合作伙伴提供可控范围的服务,并优化用户体验。
本次演讲视频录制于QCon杭州2011