BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

2012.3.16 微博热报:生物学角度看并行计算与支持向量机

| 作者 郑柯 关注 3 他的粉丝 发布于 2012年3月16日. 估计阅读时间: 7 分钟 | Google、Facebook、Pinterest、阿里、腾讯 等顶尖技术团队的上百个可供参考的架构实例!

从生物学视角审视并行计算

EMC中国研究院发布了一条关于并行计算的微博

人类创造的数据以几何速度增长,如何处理多核、并行计算中遇到的锁问题呢?IBM Research的David Ungar做了一个霸气外露的演讲:Everything You Know (about Parallel Programming) Is Wrong! 里面提出应改以生物学视角去审视平行计算问题,而不应该以数学角度。原文参见:http://t.cn/zOVpARf

李敏it引用了里面的内容:

S=1/(a+(1-a)/n) 其中,a为串行计算部分所占比例,n为并行处理结点个数。这样,当a=0时,最大加速比s=n;当a=1时,最小加速比s=1;当n→∞时,极限加速比 s→ 1/a,这也就是加速比的上限。这被称为阿姆达尔定律(Amdahl law)。不过现在可以使用非阻塞锁。

蒋卫寅1986也说:

The smaller lock granularity be,the more throghput we gain.

左锁指出:

最近一直觉得,一个CPU里面几亿个晶体管,只有极少一部分是真正在运算的,其他的全是为了让这“极少一部分”工作得更有效率而存在。这是不是方向错了,我们只是因为惯性而沿着原来的路子走而已?哪位达人去听听那个WebCast翻译一个比较完整的内容出来?

Andy_Siyao_Liu提到:

有趣。有没有web dev来接是一下how is it an algorithm in computing does not expect the right answer?

land99问到:

生物学是自治,数学是精细控制?

jebtang觉得:

这个让我想起了神书《 失控》

删微博抗议实名说:

一说并行运算,多数人都会忘了CPU是什么东西,自认为最专业的计算专家们一直都把电脑当成计算器,太特么土了~~~

Jw--999表示质疑:

说了多少遍了,事务内存 transactional memory 解决了这个问题。EMC research的人看不看Intel的spec啊?

如何深度理解支持向量机

支持向量机,英文为Support Vector Machine,简称SV机(论文中一般简称SVM)。它是一种监督式的方法,它广泛的应用于统计分类以及回归分析中。支持向量机属于一般化线性分类器。他们也可以认为是提克洛夫规范化(Tikhonov Regularization)方法的一个特例。这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区。因此支持向量机也被称为最大边缘区分类器。

eeyangc发布了一条微博

我一直觉得这篇文章是深度理解svm的关键!http://t.cn/zOVU1L6

ymzhang1919

svm特别之处在于1.hing loss(large margin); 2.kernel method(feature mapping).开始的时候人们都觉得hinge loss很重要,有几何解释,通过margin还可以推导各种迷人的bound.但实际效果上,hing loss和logistic regression,exponential loss的差别其实不大.所以SVM真正的贡献是kernel mapping.

从上一个观点出发,在loss+penalty的框架下,penalty其实更加重要。因为高维的数据很多时候都是线性可分的,也即存在无穷多错误率为0的分类面,要通过正则化从中进行选取。文章里通过一个实验验证了正则因子的重要性。

daibond认为:

我不觉得是kernel,这个概念很早就有了。非要说svm的贡献,我觉得是convex optimization以及直观易懂的intuition。让很多人入门以及使用方便多了。svm最该感谢的是libsvm

微博作者eeyangc在评论中提到:

要理解SVM的成功,我觉得可以考虑以下几个方面:第一,SVM求解最优分类器的时候,使用了L2-norm regularization,这个是控制Overfitting的关键。第二,SVM不需要显式地构建非线性映射,而是通过Kernel trick完成,这样大大提高运算效率。

第三,SVM的优化问题是凸问题,优化专家们为SVM设计了很多巧妙的解法,解得相当快,比如Libsvm的SMO和Liblinear的 coordinate descent都相当棒!第四,Vapnika的统计学习理论为SVM提供了很好的理论背景(这点不能用来解释为什么SVM这么popular,因为由理 论导出的bound太loose)。

jamesliyufeng回复@eeyangc:

嗯,补充两点。一个是SVM当年在text categorization取得非常好的性能,是SVM popular的一个重要原因。另外,从优化角度上看,各种loss + regularization的最优解所对应的empirical loss是相互bound的(因为loss和regularization term是相互bound的),在性能上也是comparable的。

所以我个人认为,性能上,SVM, LR, BOOST等差不太多(LS有时候会差一些)。选择的时候要考虑更多的是模型的副产品,比如概率解释找LR,效率boost好些,稀疏解LASSO等。

肖智博Sean

找到了这篇评论文章的原文 Support Vector Machines with Applications 觉得同样值得阅读啊!而且是在Project Euclid上面的文章,可以免费下载!http://t.cn/zOIVi88

今日微博推荐

付超群

推荐理由:腾讯网媒产品技术部高级工程师,Lamp程序开发、全文检索以及数据挖掘技术专家。


欢迎读者关注@InfoQ,推荐热门话题,可私信@InfoQ,同时请您说明推荐理由。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT