BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

您现在处于全屏预览
关闭全屏预览

大数据场景下主题检索模型的应用
录制于:

| 作者 王晓博 关注 0 他的粉丝 发布于 2014年3月28日 | AICon 关注机器学习、计算机视觉、NLP、自动驾驶等20+AI热点技术和最新落地成功案例。
42:56

概要
Topic Model起源于99年Hofmann的PLSA模型,在十多年的发展中逐步成为一种成熟的IR检索模型,目前在文本分析、图像聚类以及情感分析中大量使用。通常大家碰到的数据集最多也就是几万到几十万篇文章这个量级,在企业的实际场景中如果遇到亿级数据该如何处理?如何利用有限的计算集群资源处理超大的文集,我们将围绕这一难题向大家介绍LDA主题模型训练系统以及它在线上预测时需要面对的问题和解决办法。

个人简介

王晓博,搜狗精准广告研发部技术经理,资深研究员;主要研究方向为大规模数据挖掘算法、展示广告精准定向以及广告排序机制。

百度技术沙龙是由百度主办,InfoQ负责策划、组织、实施的线下技术交流活动,每月一期,每期由1个话题,2场演讲以及Open Space开放讨论环节组成。旨在为中高端技术人员提供一个自由的技术交流和分享的平台。每期沙龙会邀请1名百度讲师分享百度在特定技术领域的成果及实践经验,同时还会邀请1名优秀的互联网公司或企业技术负责人对同一话题进行分享。活动主要面向开发者、技术负责人、项目经理、架构师等IT技术人员。我们的口号是:畅想,交流,争鸣,聚会。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT