InfoQ

InfoQ

新闻

我的书签

登录注册 以永久保存书签。

该内容已经被标记书签!

标记书签错误,请重试!

排序应该在数据库还是在应用程序中进行?

作者 冯大辉 发布于 2008年9月15日

领域
架构 & 设计,
运维 & 基础架构,
语言 & 开发
主题
数据访问 ,
数据库设计 ,
架构 ,
性能和可伸缩性
标签
专家解惑 ,
开源软件 ,
数据库 ,
MySQL

在网站开发中,究竟是在数据库(DB)中排序好,还是在应用程序中排序更优,这一直是个很有趣的话题。DBANotes.net博主,在数据库方面比较有研究的冯大辉就这一问题日前和读者明灵(Dragon)做了探讨,本文是关于该问题的总结。

问:请列出在PHP中执行排序要优于在MySQL中排序的原因?

答:通常来说,执行效率需要考虑CPU、内存和硬盘等的负载情况,假定MySQL服务器和PHP的服务器都已经按照最适合的方式来配置,那么系统的可伸缩性(Scalability)和用户感知性能(User-perceived Performance)是我们追求的主要目标。在实际运行中,MySQL中数据往往以HASHtables、BTREE等方式存贮于内存,操作速度很快;同时INDEX已经进行了一些预排序;很多应用中,MySQL排序是首选。而在应用层(PHP)中排序,也必然在内存中进行,与MySQL相比具有如下优势:

  1. 考虑整个网站的可伸缩性和整体性能,在应用层(PHP)中排序明显会降低数据库的负载,从而提升整个网站的扩展能力。而数据库的排序,实际上成本是非常高的,消耗内存、CPU,如果并发的排序很多,DB很容易到瓶颈。
  2. 如果在应用层(PHP)和MySQL之间还存在数据中间层,合理利用的话,PHP会有更好的收益。
  3. PHP在内存中的数据结构专门针对具体应用来设计,比数据库更为简洁、高效;
  4. PHP不用考虑数据灾难恢复问题,可以减少这部分的操作损耗;
  5. PHP不存在表的锁定问题;
  6. MySQL中排序,请求和结果返回还需要通过网络连接来进行,而PHP中排序之后就可以直接返回了,减少了网络IO。

至于执行速度,差异应该不会很大,除非应用设计有问题,造成大量不必要的网络IO。另外,应用层要注意PHP的Cache设置,如果超出会报告内部错误;此时要根据应用做好评估,或者调整Cache。具体选择,将取决于具体的应用。

问:请提供一些必须在MySQL中排序的实例?

答:在PHP中执行排序更优的情况举例如下:

  1. 数据源不在MySQL中,存在硬盘、内存或者来自网络的请求等;
  2. 数据存在MySQL中,量不大,而且没有相应的索引,此时把数据取出来用PHP排序更快;
  3. 数据源来自于多个MySQL服务器,此时从多个MySQL中取出数据,然后在PHP中排序更快;
  4. 除了MySQL之外,存在其他数据源,比如硬盘、内存或者来自网络的请求等,此时不适合把这些数据存入MySQL后再排序。

必须在MySQL中排序的实例如下:

  1. MySQL中已经存在这个排序的索引;
  2. MySQL中数据量较大,而结果集需要其中很小的一个子集,比如1000000行数据,取TOP10;
  3. 对于一次排序、多次调用的情况,比如统计聚合的情形,可以提供给不同的服务使用,那么在MySQL中排序是首选的。另外,对于数据深度挖掘,通常做法是在应用层做完排序等复杂操作,把结果存入MySQL即可,便于多次使用。
  4. 不论数据源来自哪里,当数据量大到一定的规模后,由于占用内存/Cache的关系,不再适合PHP中排序了;此时把数据复制、导入或者存在MySQL,并用INDEX优化,是优于PHP的。不过,用Java,甚至C++来处理这类操作会更好。

从网站整体考虑,就必须加入人力和成本的考虑。假如网站规模和负载较小,而人力有限(人数和能力都可能有限),此时在应用层(PHP)做排序要做不少开发和调试工作,耗费时间,得不偿失;不如在DB中处理,简单快速。对于大规模的网站,电力、服务器的费用很高,在系统架构上精打细算,可以节约大量的费用,是公司持续发展之必要;此时如果能在应用层(PHP)进行排序并满足业务需求,尽量在应用层进行。

例子有点极端吧? 发表人 Colder Xihk 发表于
Re: 例子有点极端吧? 发表人 David Fenng 发表于
Re: 例子有点极端吧? 发表人 sasumi sobizz 发表于
这篇就是传说中的标题党么 发表人 高 德翔 发表于
Re: 这篇就是传说中的标题党么 发表人 David Fenng 发表于
Re: 这篇就是传说中的标题党么 发表人 sen firefly 发表于
Re: 这篇就是传说中的标题党么 发表人 高 德翔 发表于
Re: 这篇就是传说中的标题党么 发表人 chenghui liu 发表于
Re: 这篇就是传说中的标题党么 发表人 高 德翔 发表于
无厘头 发表人 老 陈 发表于
Re: 无厘头 发表人 huang baichuan 发表于
  1. 返回顶部

    例子有点极端吧?

    发表人 Colder Xihk

    恕我直言

    下面的4V4的例子 也太极端了吧
    貌似完全说明不了问题

  2. 返回顶部

    Re: 例子有点极端吧?

    发表人 David Fenng

    # 不论数据源来自哪里,当数据量大到一定的规模后,由于占用内存/Cache的关系,不再适合PHP中排序了;此时把数据复制、导入或者存在MySQL,并用INDEX优化,是优于PHP的。不过,用Java,甚至C++来处理这类操作会更好。

    是说这个么? 这个的确有点偏颇。作者原意应该是客户端排序溢出的情况。因为一次 DB-->App(PHP) 会产生过多的 IO ,且 PHP 排序应付不了过多数据(PHP Cache满了)的情况

  3. 返回顶部

    Re: 例子有点极端吧?

    发表人 sasumi sobizz

    覺得確實有點極端。。

  4. 返回顶部

    这篇就是传说中的标题党么

    发表人 高 德翔

    顺便问问"不过,用Java,甚至C++来处理这类操作会更好。"...这句何指呢?

  5. 返回顶部

    Re: 这篇就是传说中的标题党么

    发表人 David Fenng

    这个其实是指类似Build 到搜索引擎中的事儿

    其中这个事情总体上说来,还是个 I/O 经济性的事儿

  6. 返回顶部

    Re: 这篇就是传说中的标题党么

    发表人 sen firefly

    请不要怀疑~~如果大家真的理解PHP的话会发现PHP是太快了。一般的MIS系统的原则是越靠近数据库越快,而PHP是相反的,PHP中70%的时间是在等待数据库。

  7. 返回顶部

    Re: 这篇就是传说中的标题党么

    发表人 高 德翔

    ?? 难道是说lucene?

  8. 返回顶部

    Re: 这篇就是传说中的标题党么

    发表人 高 德翔

    这个说法没有说服力。数据量大的时候,甚至不是那么大的时候,很多情况都是等数据库。但这不能说明前台的这些脚本处理数据更快

  9. 返回顶部

    Re: 这篇就是传说中的标题党么

    发表人 chenghui liu

    系统优化是万物平衡的道理,是消耗数据库资源还是消耗应用服务器资源,这篇文章说地是如何去打造衡量标准尺子的方法,而不是给你这把尺子。

  10. 返回顶部

    无厘头

    发表人 老 陈

    “MySQL中数据量较大,而结果集需要其中很小的一个子集,比如1000000行数据,取TOP10”
    貌似没关系吧,如果结果集需要很大一个集合比如100000行呢?难道就在PHP里(假设没有超出内存的问题)排了?

    “数据存在MySQL中,量不大,而且没有相应的索引,此时把数据取出来用PHP排序更快”
    量不大的话,在库里排能增加库的多少压力呢?何况排序并非简单,如果在代码里实现数据库的ORDER BY field1, field2, field3一致的效果,而且字段顺序是动态的,DESC/ASC也是动态的,只怕也得相当的人力成本

    “除了MySQL之外,存在其他数据源,比如硬盘、内存或者来自网络的请求等,此时不适合把这些数据存入MySQL后再排序”貌似个很大的话题。
    总不能没检索一次就从硬盘、内存里把这些数据往库里全部重写一次,得考虑哪些更新了哪些没更新等等策略,是个数据整合的很大的话题

  11. 返回顶部

    Re: 无厘头

    发表人 huang baichuan

    1:数据太多,加载在内存里面容易内存溢出,在MySQL中排序不是全部dump到内存中再运行。
    2:因为没有索引,没有索引的查找数据是比较慢的,索引本身就是有序的,找出来的话需要重新组织结构并排序,给数据库的本身压力又增加。但是他用词也用的不准确。
    3:这句话感觉有半句话没有意义,呵呵。

深度内容

应用云平台的可用性——从新浪SAE看云平台设计

云计算平台的可用性,相比传统互联网服务而言,更加复杂和困难,也更具有挑战性。本文借助新浪SAE云平台为读者讲述了云平台可用性的定义、如何打造高可用的平台,以及对云计算的用户提出了建议。

JVM定制改进 @ 淘宝

淘宝高度重视Java平台的健康发展,组建了一个团队专注于Java平台的底层部分的性能、功能与稳定性改进;工作主要基于OpenJDK中的HotSpot VM开展,其中一些通用的功能随后也会逐渐反馈给OpenJDK社区。希望能与使用Java平台开发应用的大家交流经验。
本次演讲视频录制于QCon杭州2011

"伤得起"的云计算应用——对云端应用之架构的思考

2011年4月21日至22日是值得云计算从业者纪念的日子。Amazon的IaaS服务出现故障,导致许多商业网站的服务中断,影响非常严重。作为云计算用户,我们需要思考的是,如何保证即便在云服务不可用的情况,我们的应用架构仍然能够屹立不倒?本文正是站在云计算用户的角度试图探讨这一问题。

让交付的速度跟上思考的速度

12人的技术团队,4组刀片服务器,每月20亿的访问量,每日1次准时部署,99.9%的可用性。这可能吗?当然。想知道如何做的吗?百姓网将与您分享他们在DevOps实践过程中的经验和技巧。
本次演讲视频录制于QCon杭州2011

架构之路——穿行在产品和业务之间

篱笆作为一家起源于社区的电子商务公司,反映到技术层面就是同时要面对产品和业务,以及经营战略的变化调整。如何在产品和业务的夹缝之间完成技术架构的抽象与平衡,寻找更有效的价值定位,这当中有些经验教训和个人感悟愿与众人分享。
本次演讲视频录制于QCon杭州2011

特性注入:成功三部曲

本文将对特性注入以及相关方法做一个扫盲性的介绍。我们会解释这个框架的关键要素,并附上实例来证实它们。为了让文章保持相对较短,我们不会深入到某个工具或方法中,而是会给出一些参考资料,以便大家做进一步的研究。

解析JDK 7的动态类型语言支持

随着JDK 7的发布,字节码指令集终于迎来了第一位新成员——invokedynamic指令。这条新增加的指令是JDK 7实现“动态类型语言(Dynamically Typed Language)”支持而进行的改进之一,也是为JDK 8可以顺利实现Lambda表达式做技术准备。在这篇文章中,我们将去了解JDK 7这项新特性的出现前因后果和它的意义。

Java Remoting远程服务(下)

随着互联网应用的发展,Java分布式远程服务技术受到越来越多的关注,本文将对各种相关实现以示例的形式逐一介绍,并总结其中的优缺点,使读者能够在技术选型时有所准备。这是文章的下篇。