BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

Airbnb发布开源的机器学习软件包Aerosolve

| 作者 孙镜涛 关注 2 他的粉丝 发布于 2015年6月16日. 估计阅读时间: 3 分钟 | Google、Facebook、Pinterest、阿里、腾讯 等顶尖技术团队的上百个可供参考的架构实例!

Airbnb是一个旅行房屋租赁网站,用户可以通过该网站发布、搜索度假房屋租赁信息并完成在线预定程序,它成立于2008年8月,总部设在美国加州旧金山市。Airbnb的用户遍布190个国家的近33000个城市,发布的房屋租赁信息达到50多万条,被时代周刊称为“住房中的EBay”。在6月4日举行的OpenAir开发者大会上,Airbnb发布了一个为人而设计的机器学习软件包——Aerosolve

与其他的机器学习库相比,Aerosolve具有以下特点:

  • 特征呈现基于thrift,支持Pairwise Ranking Loss和单上下文的多条目呈现。在Aerosolve中,特征会按照逻辑分组,每一个组称为一个特征簇,我们可以一次性地对整个特征组进行转换,或者将两个不同的特征簇组合到一起创建新的特征簇。每一个特征向量(FeatureVector)有三种类型:stringFeatures、floatFeatures和denseFeatures。
  • 支持一种特征转换语言,让用户能够对特征进行更多的控制。Aerosolve将特征转换包含在一个独立的转换模块中,与模型解耦,用户既能够将转换操作拆散使用,又可以提前转换相关数据。例如,在一个应用程序中用户可以在运行时上下文确定之前对一个文集中的条目数据进行转换和存储,然后在运行时做上下文的转换,并将转换后的上下文与提前转换的条目逐一进行联合获取最终的特征向量。常用的转换操作包括:列表转换交叉转换多尺度网格转换
  • 人类友好的调试模型。模型目录中包含很多模型,但是其中最主要的两个是:线性模型和样条模型,其他的都是试验性的模型或者是为可推理模型创建转换的子模型。
  • 独立的轻量级Java推理代码
  • 使用Scala代码进行训练
  • 简单的图片内容分析代码,适合于图片的排序或者排名。

需要注意的是,Aerosolve适合于稀疏的、可推理的特征,例如搜索(搜索关键词、过滤词)或价格(房屋的数量、位置和价格)中通常会出现的特征;不适合非常密集的人类无法推理的特征,例如原始的像素集或者音频样本。

最后,Aerosolve所需的制品托管在bintray上,如果你使用Maven、SBT或者Gradle,那么需要将仓库指向bintray。如果想了解更多信息,可以点击这里


感谢郭蕾对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入InfoQ读者交流群InfoQ好读者)。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT