BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

阿里巴巴大数据竞赛介绍

| 作者 InfoQ中文站 关注 53 他的粉丝 发布于 2014年3月11日. 估计阅读时间: 7 分钟 | GMTC大前端的下一站,PWA、Web框架、Node等最新最热的大前端话题邀你一起共同探讨。

1. 大赛介绍:

阿里巴巴大数据竞赛是阿里巴巴集团主办,以天猫推荐算法为场景,在阿里巴巴大数据科研平台——“天池”上开展的,基于海量真实用户访问数据的算法大赛。

本次比赛的目的是让广大的高校同学在大数据时代的背景下,有机会学习和利用阿里巴巴的大数据和云计算平台,尝试解决真实的业务与社会问题。

整个比赛分为三季(season):

Season 1:2014年3月10日至4月20日,参赛者可以下载少量天猫的真实行为数据,并在本地调试算法,提交结果。

Season 2:2014年4月25日至7月30日,参赛者须使用“天池”平台(阿里巴巴自主研发的分布式计算平台),访问海量的天猫数据,并利用Map&Reduce、SQL及各种平台集成的机器学习算法包调试模型、提交结果。

Season 3(即线上赛,实战双11):2014年10月至11月,Season 2的top选手可以访问天猫,参与2014年双11的真实算法设计,并有机会获取百万大奖。

2. 报名规则

1. 参赛对象

全日制高校(研究院所)本科、硕士、博士均可参赛

2. 组队规则

参赛队伍可以是单人组队,或者自由组合,但是最多不超过三人(可以跨学院跨学校)。如果是多人团队,则需指定一名队长,负责沟通事宜。另外每个队伍可以配备指导老师一名

注:

  1. 每人只能参加一支队伍;
  2. 保证参赛队员报名信息准确有效,否则会被取消参赛资格及激励;
  3. 进入season2后,不允许变更队伍成员;
  4. 报名时间:只要在4月20日0:00(season1截止)之前报名即可。鼓励大家早点报名,可以早点接触到数据,以确保参赛时间充足。
  5. 报名方式:官网注册账号后报名即可
  6. 交流论坛:阿里云论坛(后续补充)

3. 报名地址

活动官方地址:http://102.alibaba.com/competition/addDiscovery/index.htm

大赛官方微博:@2014阿里巴巴大数据竞赛

大赛技术交流微博:@2014阿里大数据竞赛技术交流

3. 主办方:阿里巴巴集团

4. 赛制安排:

5. 赛题介绍

本赛题适用于season1 和season 2的比赛,season 3 为线上赛(season 2 赛后公布题目)。

在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户4个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。

我们会开放如下数据类型:

字段

字段说明

提取说明

user_id

用户标记

抽样&字段加密

Time

行为时间

精度到天级别&隐藏年份

action_type

用户对品牌的行为类型

包括点击、购买、加入购物车、收藏4种行为

(点击:0  购买:1  收藏:2  购物车:3)

brand_id

品牌数字ID

抽样&字段加密

用户对任意商品的行为都会映射为一行数据。其中所有商品ID都已汇总为商品对应的品牌ID。用户和品牌都分别做了一定程度的数据抽样,且数字ID都做了加密。所有行为的时间都精确到天级别(隐藏年份)。

6. 评估指标

我们希望参赛队的预测, 预测的品牌准确率越高越好,也希望覆盖的用户和品牌越多越好,所以用最常用的准确率与召回率作为排行榜的指标。

7. 不同赛季使用数据说明

Season 1赛季数据

1) 数据获取格式:

参赛者通过大赛官网报名成功后,可以直接下载数据到本地,直接使用。(补充地址

2) 数据说明:

提供的原始文件有大约5M左右,涉及1千多天猫用户,2千多个天猫品牌,总共10万多条的行为记录。用户4种行为类型(Type)对应代码分别为:

点击:0;购买:1;收藏:2;购物车:3

3) 提交评分方式:

参赛者将预测的用户存入文本文件中,格式如下:

user_id \t brand_id , brand_id , brand_id \n

如图:

将预测结果文件上传至大赛官网结果提交入口即可。(补充地址

Season 2赛季数据

1) 数据获取方式:

初赛阶段的数据参赛者只能登陆阿里巴巴天池集群获取数据,且数据不能下载,所有数据分析,计算,提交评分都将在天池集群上完成。

登陆天池集群方法,请详见大赛官网相关说明文档。(补充地址)

2) 数据说明:

提供的数据量,涉及千万级天猫用户,万级天猫品牌,时间跨度4个月的行为记录。

提供的训练数据在天池集群的表t_alibaba_bigdata_user_brand_tota_1中,字段分别为:user_id,brand_id, type, visit_datetime。如图所示

用户4种行为类型(Type)对应代码分别为:

点击:0;购买:1;收藏:2;购物车:3

3) 提交评分方式:

参赛者完成用户品牌偏好预测后,需要将结果放入指定格式的数据表(非分区表)中,要求结果表名为:t_tmall_add_user_brand_predict_dh,包含user_id和brand两列。其中brand字段为预测的偏好品牌ID,多个品牌之间用逗号(",")分隔。

例如:

8. 奖项设置:

Season 1 不设奖项,但是会从参赛队伍中选择较优者进入Season 2阶段比赛。

Season 2 阶段奖项:

一等奖:1支队伍,奖金贰拾万

二等奖:1支队伍,奖金伍万

三等奖:1支队伍,奖金贰万

(上述奖项以决赛答辩成绩的最终名次决定)

  • 月星星奖:每期月度榜单排名Top10的参赛队成员都将获得搭载云OS的手机一部(具体手机型号在公布榜单时公布)
  • 优胜奖:决赛全国赛排名Top50的参赛队成员直接进入阿里巴巴校园招聘绿色通道(即招聘流程省略简历筛选及笔试筛选阶段,直接进入面试阶段) ,在校期间均有效;并将获得阿里纪念T恤和大赛获奖证书
  • 总决赛Top10的主要参赛队成员可直接入围“阿里星”计划,参赛队的指导老师(如有)将享受天池数据的最高使用权限1年。

Season 3 线上阶段奖项:

Season 2 阶段的优胜者,将会受邀访问天猫,在天猫实际开发2014年双11线上算法,并有机会赢取100万大奖(组委会将在Season 2结束后公布细则)。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT