博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【Hadoop】Hadoop概览
阅读量:4630 次
发布时间:2019-06-09

本文共 683 字,大约阅读时间需要 2 分钟。

学习Hadoop之后,根据个人理解,给出Hadoop中比较重要的组件,及其之间的关联,若有理解不到位之处,后续改正。

Hadoop整体预览

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

重要组件及重要过程

1. HDFS

a. HDFS : Hadoop Distributed File System

b. HDFS用于Hadoop的分布式存储,可以查看

2. YARN架构

3. 本地模式MR过程分析

对于Map 和 Reduce过程,一开始先从本地模式开始,用调试的方法跑通整个过程

查看

4. 分布式下作业提交过程

跑通本地模式下的MR过程,接下来就是分布式环境了,因为分布式涉及到远程调试,因而先从提交作业的过程开始分析

查看

5. 二次分发过程

作业提交到分布式环境中,会转换成应用(Application),Hadoop对应用的处理是基于事件的,会将应用状态转换的每一步当做一个事件存于底层的事件队列中进行处理,而对事件的处理会经过一个二次分发的过程

查看

6. InputFormat & OutputFormat

Hadoop处理的是海量的数据,而数据的来源可以来自文本,数据库或其他,对于这些数据来源的描述、处理就需要使用InputFormat

Map过程处理的是key-value键值对,而从数据源到键值对的转换即需要RecordReader
相应的,对于MR结果的输出则是OutputFormat及RecordWriter
查看InputFormat & OutputFormat过程

 

转载于:https://www.cnblogs.com/sqdmydxf/p/7767770.html

你可能感兴趣的文章
Welcome to Swift (苹果官方Swift文档初译与注解三十四)---241~247页(第五章-- 函数)
查看>>
ibatis源码浅析- 初探
查看>>
Linux必知必会的目录与启动过程
查看>>
lemp-------3多站点访问,,访问控制,,虚拟目录
查看>>
爬虫之数据解析(三种方式)
查看>>
jQuery中的常用内容总结(一)
查看>>
[转载] Tmux 速成教程:技巧和调整
查看>>
分布式技术追踪 2017年第十二期
查看>>
分布式技术一周技术动态 2016-11-27
查看>>
20169212 2016-2017-2 《网络攻防实践》第四周学习总结
查看>>
如何用git命令行上传本地代码到github
查看>>
JS 图像延迟加载
查看>>
第二次作业
查看>>
完全理解 Python 迭代对象、迭代器、生成器(转)
查看>>
机器学习实战源码&数据集
查看>>
php字符串处理函数相关操作
查看>>
spring security remember me实现自动登录
查看>>
ie6下常见的bug 调整页面兼容性
查看>>
初识python
查看>>
Jsoncpp 使用方法解析
查看>>