BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

童有军:怎样进行精准用户画像
录制于:

| 受访者 童有君 关注 0 他的粉丝 作者 InfoQ 关注 13 他的粉丝 发布于 2016年5月22日 | QCon上海2018 关注大数据平台技术选型、搭建、系统迁移和优化的经验。
08:35

个人简介 童有军,现任FreeWheel主任工程师,负责广告服务平台的用户画像、广告预估和流量预测等算法的研究和应用工作。关注机器学习算法与大数据方法在互联网广告领域的发展和应用。曾先后供职于百度网页搜索部,和即刻搜索的搜索质量部。

QCon是由InfoQ主办的全球顶级技术盛会,每年在伦敦、北京、东京、纽约、圣保罗、杭州、旧金山召开。自2007年3月份首次举办以来,已经有包括传统制造、金融、电信、互联网、航空航天等领域的近万名架构师、项目经理、团队领导者和高级开发人员参加过QCon大会。

   

1. 各位InfoQ的网友大家好!现在我们是在QCon2016北京的现场,作客专访间的是FreeWheel的童有军。你好,请您简单介绍一下FreeWheel公司以及您在FreeWheel所负责的工作。

童有军:FreeWheel成立于2007年,现在是康卡斯特的全资子公司。包括研发市场、售前、售后在内,在全球大概有500民员工。我们office设置在纽约、伦敦和北京。所在北京的是我们最大的一个研发中心,基本负责了我们公司的所有核心产品。

   

2. 北京公司有多少人?

童有军:大概现在有240多人。

   

3. 研发人员比例占大概多少?

童有军:90%以上。

   

4. 眼下主要的互联网公司都在对用户进行画像,在您看来广告平台的用户画像与之前的搜索引擎、电商平台有哪些相同与不同?

童有军:分两方面来讲:其一从需求方来讲,类似之前的电商或者搜索平台,用户画像更多是将用户需求直接从搜索或购买行为中展现出来,这种画像是针对用户需求做的。而在广告平台当中,我们主要服务于广告商,画像的需求主要来自于广告商的定位和需求,这两者是需求方的来源差别。

其二,虽然从搜索平台或者电商平台中,广告平台能够拿到很多用户信息,但是对用户信息的管理并没有搜索或电商那么直接,所以这对于广告平台的用户画像来说是一个难点。

   

5. 电商平台的搜索引擎有它的一套帐号系统,它的用户画像可能会是基于帐号系统的,这使得用户画像会比较精准,那你们的广告平台是基于什么?

童有军:明天在我们分享中会有这部分内容,简单来说是集中有限信息并通过挖掘手段使信息丰富。

   

6. 广告平台画像相对搜索与电商来说用户画像难度是否更高一些?

童有军:事情从两方面看。数据少,获得信息少,这是难点;但是数据多而杂乱,也会造成困难,单从技术角度来说并没有高低之分。

   

7. 点击预估有很多模型可用,比如大家通常用LR做CTR的预估。您能谈一下像LR这种较线性的模型在工业界的应用吗?

童有军:LR虽然是个简单的模型,但有着良好的效果,目前大规模应用在CTR预估方面。LR对高维数据空间有很好的效果,并且可以用于online的训练,这两点非常适合应用在广告平台上。之前有一个模型叫FTRL,它在广告的CTR预估上几乎占据统治性的地位。但随着技术的崛起,有些平台已经把这个技术转到Deep Learning的技术上。

   

8. LR是否是类似于贝叶斯算法这种比较基础但是又比较通用的模型。

童有军:LR模型跟贝叶斯算法不太像,因为贝叶斯是概率模型。我觉得LR有两个最大的优点,一是它的数据吸收性处理,二是良好的online训练。像SGD这种方式,以及我刚才讲到的FTRL算法的online训练,LR非常适合不断的迭代学习。

   

9. 您刚才谈到在用户数据较多与较少的时候会产生画像难度的问题,那么FreeWheel的平台在数据建模和数据处理过程中会如何进行降噪处理?

童有军:这是我们分享的重点。因为对于广大从事数据工作的程序员来讲,一般情况下我们拿到的数据质量是非常好的,因此不会对它产生怀疑。但是当数据中的噪声达到一定比例时,会对模型性能产生很大的限制,并且我们在实际工作中也碰到过类似问题。在降噪上大概的几种标准的方法我们都在使用,比较主流的方法类似于Boosting,bagging,半监督,无监督的方法。在我们的share中会将这几种方法做对比,大家可以根据方法的优劣性选择适合自己的方法,进行数据的降噪。

   

10. 虽然FreeWheel公司的用户画像是主要针对广告商的,但不同广告商可能需求不一样,所以按常规理解你们肯定有自己海量的数据。那么降噪其实是去重,可以这样理解吗?

童有军:降噪包含很多方面,我们是针对广告商的需求来制定我们的模型和算法,这又分为两种,一种是通过用户画像的细分去投放广告,另外一种是测量,我们先通过广告商的需求将广告投放给用户,然后通过反馈来测量,这是需求的不同。

你所说的去重降噪,其实与我理解的降噪是两种不同的概念,你讲的实际是数据清洗的一种方法,而我说的“噪声”类型是label noise,也就是数据相对干净但标签是杂乱的。

   

11. 最后想请您谈一下您对机器学习的看法以及对大数据领域的同仁们讲两句话。

童有军:机器学习这个领域在近十年甚至十五年前就已经开始蓬勃发展了,而我在这个领域也只算一个新人,说不上什么建议。

随着这两年数据计算能力的发展,分布式平台使得我们有能力去处理海量的数据,并从这海量的数据中提取更多知识。比如深度学习,现在它的发展已经在计算机视觉、自然语言处理上做出了非常令人惊奇的效果,类似的像AlphaGo和之前的Googlenet。所以我觉得在深度学习或者机器学习领域会有很大的提升空间,希望我们从事这个行业的或者这个方向的人能够为科技的进步做出自己的贡献。

InfoQ:谢谢你接受我们的采访。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT