September 23, 2019 1 min to read

Hadoop

官方文档：http://hadoop.apache.org/docs/stable/index.html

常见版本及其区别

Apache hadoop 最原始版本

Cloudera的CDH版本

Hortonworks版本（HDP）

安装

Apache版本

首先记得改hosts文件：实际ip地址:主机名

各个机器之间配置SSH免密登录

CDH版本

HADOOP组件

主要由hadoop-common、hadoop-hdfs、map-reduce、yarn四部分构成

HADOOP-COMMON

hdfs和mapreduce的公共库

HADOOP-HDFS

由namenode、secondaryNamenode、datanode进程构成，其结构图如下：

HDFS文件系统对外暴露文件的层级结构（类似于linux文件系统），然而在内部是以block序列存储的，即一个文件被分为多个block存储于多个datanode节点上。

Federation 架构:
主要为了解决HDFS的吞吐量及承载量受限于单个nameNode，并且无法根据namespace做隔离的弊端；
Federation架构通过多个独立的NameNode实现集群的横向扩展。而在存储层，各个nameNode共用统一的DataNode。Federation 架构是指由多个子集群联合构成一个 Federation 集群，通常的做法是这些子集群会共享 Datanode.然后由挂载表来维护Federation Namespace 到子集群 Namespace 间的映射关系。架构描述如下：

具体实现分为veiwFS-based架构以及router-based架构：
viewFS-based 的HDFS的访问，是通过挂载表完成Federation Namespace 到子集群 Namespace 间的映射关系，这个挂载表存储在客户端本地的配置文件里面。由客户端解析，从而访问正确的子集群。
这种架构的问题是：挂载表是由客户端实现，修改代码逻辑需要考虑新老客户端的兼容性并分发新的客户端，另外在实现子集群 Namespace 的 Rebalance 时，难以保证所有客户端同步更新到新的挂载表。

router-based架构相当于在client与HDFS之间增加了一个中间层；

namenode进程
HDFS类似主从（master/slave）架构，一个集群中只有一个nameNode进程，其角色类似于master；主要负责对外展示文件的层级结构、管理客户端对文件的访问，如：打开、关闭、重命名等、决定文件的block与datanode之间的映射关系。

nameNode进程相关信息都会记录在FsImage和editlog两个文件中，可以通过配置保持一份或者多份同步更新，在某个节点失败之后，只要文件存在便可以迅速恢复。

关于权限控制，与linux系统有很大相似之处，可以通过chown命令修改相关文件夹、文件的权限。FS客户端一般取客户端进程所在主机名作为用户名。超级用户是运行nameNode进程的用户。参考：http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_permissions_guide.html#Shell%E5%91%BD%E4%BB%A4%E5%8F%98%E6%9B%B4

secondaryNamenode
nameNode运行时间太长，会导致editlog太大，文件间的管理就会变的复杂，难度也会有所增大；主要负责协助nameNode管理editLog，比如将editLog合并到fsImage；
具体逻辑如下图：

datanode
一个集群中有多个dataNode，通常每台机器部署1个。主要负责数据存储、处理来自客户端的读写请求等（包括block的创建删除）。

DataNode节点的启动很简单，拷贝NameNode节点配置，在danaNode节点执行：./sbin/hadoop-daemon.sh start datanode

副本的存储配置时hdfs系统的优化重点，直接关系到集群的可靠性和性能（如一个文件的两个副本与文件存储在同一个机器上，则很难起到备份作用）；受硬件布局、带宽等很多因素影响。

MAP-REDUCE

Mapper

将key/value集合映射为key/value集合，映射前后的数据类型和数据量可以不一致（可以完成一对多的映射）
map->group->sorted-partitioned 最终partition之后的数量一般于reducer需要执行的task的数量相等（注意不是和reduceer数量相等）

Reucer

将key相同的value构成的集合转成更小的一个value集合，可以自行设置reducer的数量，一般为计算node的0.95或1.75倍
shuffle（译为拉取）&group&sort：采用fetch方式取mapper的输出并做聚合（因为相同的key可能在不同的mapper输出里面），这两个过程是同时进行的。
secondary sort：如果设定了自定义的排序与前面的sort不同，会执行这一过程
Reduce：输入key以及对应的value的集合;输出一般是写出到文件系统

YARN

YARN是集群资源管理的组件，主要有resourceManager和nodeManager进程构成。前者负责各个Application的资源分配，后者负责各自节点的CPU、内存、硬盘、网络等的监控，并负责报告给resourceManager进程。结构图如下：

resourceManager由两部分构成，scheduler和applicationManager

scheduler仅负责资源分配，支持不同的调度策略如：CapacityScheduler，FairScheduler。并不处理application的相关消息，也不关注application的状态等。
application向applicationManager提交任务，由applicationManager向scheduler申请资源，之后负责启动容器，选取applicationMaster，并且提供一些容错机制，如applicationMaser失败之后重试等

Nodemanager启动

yarn-site.xml配置：yarn.resourcemanager.resource-tracker.address,确保nodemanager可以找到resourcemanager;执行：./sbin/yarn-daemon.sh start nodemanager

认证机制

kerberos认证机制

通过Principal（类似于用户名）+keytab文件（类似于秘钥）
配置方式一，启动java程序是增加如下属性配置：

-Dhadoop.property.hadoop.security.authentication=kerberos
-Dhadoop.property.hadoop.client.keytab.file=/home/panteng.keytab
-Dhadoop.property.hadoop.client.kerberos.principal=panteng@XXX.HADOOP

配置方式二，在core-site.xml中增加如下配置：

  		<property>
    			<name>hadoop.security.authentication</name>
    			<value>kerberos</value>
  		</property>
  		<property>
    			<name>hadoop.client.kerberos.principal</name>
    			<value>panteng@XXX.HADOOP</value>
  		</property>
  		<property>
    			<name>hadoop.client.keytab.file</name>
    			<value>path/panteng.keytab</value>
  		</property>

高可用

常见的故障一般为namenode节点挂掉、数据节点挂掉、网络故障等（网络隔离，不通）。

高可用参考资料：https://blog.csdn.net/liu123641191/article/details/80737761

其他

通过Reservation System实现资源预订机制，可确保重要任务有足够可用资源。

通过YARN Federation 实现资源扩容与缩放

常见问题

如何使用map reduce实现join操作
map阶段输出key/value，其中key是join的字段，value需要根据输入文件名称，进行区分（比如加前缀，表明是哪个表/文件的数据）；
reduce阶段，输入是key以及两个表中这个key对应的数据，然后根据前缀处理为key v1 v2的形式

沙中世界 v3.1.2

Hadoop

常见版本及其区别

安装

Apache版本

CDH版本

HADOOP组件

HADOOP-COMMON

HADOOP-HDFS

MAP-REDUCE

YARN

认证机制

kerberos认证机制

高可用

其他

常见问题

常见的概率分布

Comments

Hadoop

常见版本及其区别

安装

Apache版本

CDH版本

HADOOP组件

HADOOP-COMMON

HADOOP-HDFS

MAP-REDUCE

YARN

认证机制

kerberos认证机制

高可用

其他

常见问题

常见的概率分布

Share

Comments