和Google互补的搜索引擎Wolfram|Alpha
Wolfram|Alpha与Google究竟是什么关系,Wolfram|Alpha自己是如何定位的?Wolfram|Alaph在多大程度上是语义网搜索呢?InfoQ中文站就等等这些问题采访了Wolfram研究公司中国区商务经理王翔。
作者 冯大辉 发布于 2008年9月15日 下午10时36分
在网站开发中,究竟是在数据库(DB)中排序好,还是在应用程序中排序更优,这一直是个很有趣的话题。DBANotes.net博主,在数据库方面比较有研究的冯大辉就这一问题日前和读者明灵(Dragon)做了探讨,本文是关于该问题的总结。
问:请列出在PHP中执行排序要优于在MySQL中排序的原因?
答:通常来说,执行效率需要考虑CPU、内存和硬盘等的负载情况,假定MySQL服务器和PHP的服务器都已经按照最适合的方式来配置,那么系统的可伸缩性(Scalability)和用户感知性能(User-perceived Performance)是我们追求的主要目标。在实际运行中,MySQL中数据往往以HASHtables、BTREE等方式存贮于内存,操作速度很快;同时INDEX已经进行了一些预排序;很多应用中,MySQL排序是首选。而在应用层(PHP)中排序,也必然在内存中进行,与MySQL相比具有如下优势:
至于执行速度,差异应该不会很大,除非应用设计有问题,造成大量不必要的网络IO。另外,应用层要注意PHP的Cache设置,如果超出会报告内部错误;此时要根据应用做好评估,或者调整Cache。具体选择,将取决于具体的应用。
问:请提供一些必须在MySQL中排序的实例?
答:在PHP中执行排序更优的情况举例如下:
必须在MySQL中排序的实例如下:
从网站整体考虑,就必须加入人力和成本的考虑。假如网站规模和负载较小,而人力有限(人数和能力都可能有限),此时在应用层(PHP)做排序要做不少开发和调试工作,耗费时间,得不偿失;不如在DB中处理,简单快速。对于大规模的网站,电力、服务器的费用很高,在系统架构上精打细算,可以节约大量的费用,是公司持续发展之必要;此时如果能在应用层(PHP)进行排序并满足业务需求,尽量在应用层进行。
恕我直言 下面的4V4的例子 也太极端了吧 貌似完全说明不了问题
# 不论数据源来自哪里,当数据量大到一定的规模后,由于占用内存/Cache的关系,不再适合PHP中排序了;此时把数据复制、导入或者存在MySQL,并用INDEX优化,是优于PHP的。不过,用Java,甚至C++来处理这类操作会更好。 是说这个么? 这个的确有点偏颇。作者原意应该是客户端排序溢出的情况。因为一次 DB-->App(PHP) 会产生过多的 IO ,且 PHP 排序应付不了过多数据(PHP Cache满了)的情况
覺得確實有點極端。。
顺便问问"不过,用Java,甚至C++来处理这类操作会更好。"...这句何指呢?
这个其实是指类似Build 到搜索引擎中的事儿 其中这个事情总体上说来,还是个 I/O 经济性的事儿
请不要怀疑~~如果大家真的理解PHP的话会发现PHP是太快了。一般的MIS系统的原则是越靠近数据库越快,而PHP是相反的,PHP中70%的时间是在等待数据库。
?? 难道是说lucene?
这个说法没有说服力。数据量大的时候,甚至不是那么大的时候,很多情况都是等数据库。但这不能说明前台的这些脚本处理数据更快
系统优化是万物平衡的道理,是消耗数据库资源还是消耗应用服务器资源,这篇文章说地是如何去打造衡量标准尺子的方法,而不是给你这把尺子。
“MySQL中数据量较大,而结果集需要其中很小的一个子集,比如1000000行数据,取TOP10” 貌似没关系吧,如果结果集需要很大一个集合比如100000行呢?难道就在PHP里(假设没有超出内存的问题)排了? “数据存在MySQL中,量不大,而且没有相应的索引,此时把数据取出来用PHP排序更快” 量不大的话,在库里排能增加库的多少压力呢?何况排序并非简单,如果在代码里实现数据库的ORDER BY field1, field2, field3一致的效果,而且字段顺序是动态的,DESC/ASC也是动态的,只怕也得相当的人力成本 “除了MySQL之外,存在其他数据源,比如硬盘、内存或者来自网络的请求等,此时不适合把这些数据存入MySQL后再排序”貌似个很大的话题。 总不能没检索一次就从硬盘、内存里把这些数据往库里全部重写一次,得考虑哪些更新了哪些没更新等等策略,是个数据整合的很大的话题
Wolfram|Alpha与Google究竟是什么关系,Wolfram|Alpha自己是如何定位的?Wolfram|Alaph在多大程度上是语义网搜索呢?InfoQ中文站就等等这些问题采访了Wolfram研究公司中国区商务经理王翔。
Vijay Narayanan在这篇文章中对数据服务的几个方面进行了介绍,它们都是SOA实践者和数据架构师感兴趣的内容。本文对数据服务的几个方面进行了介绍,包括需求定义,基本原理和好处、范围、开发以及消费模式。
罗马不是一天建成的,豆瓣的技术架构也是随着用户规模的增长一直在持续变化中。在本次演讲中,豆瓣的首席架构师洪强宁将与大家一起分享从上线时的单台服务器架构开始一直到现在的豆瓣架构变迁历程。
Billy McCafferty展示了S#arp架构,它在ASP.NET MVC框架的基础上,荟萃了当今的最佳实践,应用在ASP.NET Web应用程序的架构设计中。
中国作为新兴市场中的新兴市场,是Sun在美国之外实施SSE(SUN Startup Essentials)项目重点关注的地区。在QCon Beijing 2009期间,InfoQ中文站有幸对此项目的负责人王雷先生进行了采访,探讨了关于开源、新兴市场、SSE等话题。
HTML5 是由 WHATWG发起的,最开始的名称叫做Web Application 1.0,而后这个标准吸纳了Web Forms 2.0的标准,并一同被W3C组织所采用,合并成为下一代的HTML5标准。
10 条回复
关注此讨论 回复