BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

微软发布了用于交互式数据探索和建模的数据科学工具

| 作者 Srini Penchikala 关注 17 他的粉丝 ,译者 足下 关注 0 他的粉丝 发布于 2016年11月16日. 估计阅读时间: 2 分钟 | QCon北京2018全面起航:开启与Netflix、微软、ThoughtWorks等公司的技术创新之路!

亲爱的读者:我们最近添加了一些个人消息定制功能,您只需选择感兴趣的技术主题,即可获取重要资讯的邮件和网页通知

微软最近发布了两个新的数据科学工具,用于交互式数据探索:建模和报告。这些数据科学工具被称为交互式数据探索、分析和报告(Interactive Data Exploration, Analysis and Reporting,IDEAR)和自动建模和报告(Automated Modeling and Reporting,AMAR)。数据科学团队可以通过这些数据科学工具在他们的项目中完成一些具体任务。

数据科学团队花了大量的时间写代码来回答数据相关的问题,如数据模式、丢失的数据元素、个体变量的分布和变换、在数据中特定的聚类模式以及机器学习(Machine Learning,ML)模型的性能等。这两个工具可以用来在数据科学的生命周期中将这些常见的任务自动化。其目标是在组织内的不同项目之间保持数据科学的一致性和完整性。

交互式数据探索:

IDEAR工具可以用来探索、可视化和分析数据,并提供数据洞察。基于R StudioShiny库,IDEAR包含了数据导出和报告生成功能。数据导出功能可以保存相关的R脚本,生成可视化数据并保存到R日志文件中。用户可以运行R日志文件来自动生成数据报告。

IDEAR的其他功能包括自动变量类型检测、变量排名和目标泄漏识别、可视化高维数据等。

自动建模和报告:

AMAR用超参数扫描来训练机器学习模型,比较模型的准确性并评估变量的重要性。在一个参数输入文件中我们指定ML模型去运行,指定把哪些数据用于训练和测试,指定参数范围去扫描并且指定选择最佳参数的策略。

由AMAR工具生成的模型报告包含模型信息、模型评价和比较以及特征排名。

IDEAR和AMAR工具在CRAN-R中运行,并能够在GitHub网站上找到。这个库是团队数据科学过程(Team Data Science Process,TDSP)的一部分,上个月在微软的机器学习和数据科学峰会上被推出。

如果你有兴趣学习更多关于这些数据科学工具的内容,请查看微软Technet博客中的文章,或GitHub网站上的AzureTDSP Utilities

查看英文原文Microsoft Releases Data Science Tools for Interactive Data Exploration and Modeling

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT