BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

Apache拟在Docker中运行Hadoop

| 作者 张天雷 关注 4 他的粉丝 发布于 2014年9月5日. 估计阅读时间: 2 分钟 | QCon上海2018 关注大数据平台技术选型、搭建、系统迁移和优化的经验。

Apache在其Hadoop wiki上整理了Docker中运行Hadoop的优势,以及要完全在Docker中运行Hadoop所需要完成的工作。在Docker,或者说其它容器中运行Hadoop YARN有很多优势,具体如下:

  1. 软件依赖和配置的隔离:在Docker中运行的应用,其软件依赖和配置是与宿主机完全没有关系的,跟其其它行在Docker中的应用也没有关系;
  2. 安全性:运行在Docker中的应用,在没有主动配置的情况下,基本没有办法访问(即便是Docker镜像中的root权限)宿主文件系统的内容,这可以很好的保护宿主文件系统、设备等等;
  3. 性能隔离:Docker可以对应用所需要的资源,如CPU计算资源、内存资源、存储资源、带宽等进行调控;
  4. 一致性:只要是源自同一个Docker镜像,所有的任务就具有完全一致的软件环境,跟宿主环境无关。比如一个Ubuntu镜像可以像使用真正Ubuntu系统一样利用其特性,哪怕宿主机器是RHEL;
  5. 快速部署:Docker有着强大的镜像存储和分发能力,开发者可以很方便的从镜像中心获取Hadoop YARN应用的镜像;
  6. 可编程:通过Dockerfile,开发者可以非常方便地对YARN应用的文件系统、环境配置和运行的脚本进行设置;

虽然容器的优势是明显的,但是目前Docker和YARN的情况却无法支撑完全在Docker中运行Hadoop YARN任务,Apache提出需要对Docker和YARN进行修改的想法,并给出了一些目前计划的工作:

  1. YARN的Docker执行器;
  2. Docker需要支持user namespaces,以便可以将Docker镜像中的root用户映射到宿主机的普通用户,来控制用户对宿主文件系统的访问;
  3. 容器的网络配置:这项工作主要为了让YARN的主节点同其他节点通信,Docker现有的NAT IP地址不允许运行在某个镜像中的任务访问另外一台物理宿主上运行的其他任务;
  4. 动态配置资源限制:目前Docker不支持动态对镜像资源进行配置;

感谢郭蕾对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ)或者腾讯微博(@InfoQ)关注我们,并与我们的编辑和其他读者朋友交流。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

最直观感受是网络配置问题 by 震宇 宇文

感觉自己在docker里面最直接的感受是网络配置问题

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

1 讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT