BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

Facebook开源用于目标检测的深度学习库Detectron

| 作者 Alexis Perrier 关注 1 他的粉丝 ,译者 郝毅 关注 0 他的粉丝 发布于 2018年3月26日. 估计阅读时间: 4 分钟 | CNUTCon 了解国内外一线大厂50+智能运维最新实践案例。

看新闻很累?看技术新闻更累?试试下载InfoQ手机客户端,每天上下班路上听新闻,有趣还有料!

一月份,在谷歌更新了TensorFlow图像识别API之后,Facebook的研究部门FAIR(Facebook AI Research)宣布开源目标检测库Detectron。这两个库都提供了最新的深度学习目标检测算法。

Detectron是基于Facebook的深度学习框架Caffe2开发的,使用了开源协议Apache 2.0 ,可以直接作为Python的库使用。Detectron的包可以在GitHub上下载,包括脚本、预训练模型以及Docker镜像。谷歌的TensorFlow图像识别API最早于2017年6月发布,是TensorFlow研究项目的一部分,TensorFlow包含了约40个不同的深度学习项目。

这两个库的预训练模型都已在COCO数据集上训练好,COCO数据集是一个大型图像数据库,包括了目标检测、分割以及图像文本描述信息。该数据集有80个类,超过20万张标注图像以及150万个实例对象。Facebook的Detectron和谷歌的Tensorflow图像识别API主要用于研究,暂未用于生产。

目标检测仍然是计算机视觉领域具有挑战性的一个方面,在许多计算机视觉领域的任务上都有应用。从简单的人脸检测到图像检索与视频监控。自动驾驶需要依赖于实时行人检测技术,而城市的车辆与人口数量的自动统计在城市规划中也很有价值。

目标检测面临的主要问题是自然场景下的未知目标的数量、大小和其在图像上的分布都是随机的。并且在提升精度的同时要求算法具有速度优势,这也增加了任务本身的难度。

机器学习中,静止图像中的目标检测需要同时解决两个问题。即确定图像的某个特定区域是一个目标物体并判断其种类。目前的目标检测模型建立在卷积神经网络(CNN)的基础上,卷积神经网络是一类结构特殊的神经网络。CNN使用矩形滑动窗口对整个原始图像进行特征提取。

目标检测算法主要有两大类。基于R-CNN的方法使用多尺度滑动窗口处理不同尺寸的目标,而YOLO(You Only Look Once)算法使用不同的特征提取和决策方法对图像进行一次推理。早期的工作能够在目标物体的周围标记一个矩形边界(object localization),而最近的一些研究成果(例如,Mask R-CNNRetinaNet)能够在物体边缘标记出更精确的边界。这一重大的进展被称为实例分割(instance segmentation),对于图像中的每个像素点,都会确定其对于某一特定类的归属关系。

评论表明Tensorflow目标检测API更容易训练,它的GitHub仓库包括一些可以用于安装、训练模型和迁移学习的Jupyter Notebooks,在谷歌的目标检测库中也可以获取更多的在线教程

查看英文原文:Facebook Open-Sources Detectron, Deep-Learning Library for Object Detection


感谢无明对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT