CDH-CM和CDH大数据运维官方课程

学习目标

  1. 使用cm管理cdh
  2. 配置
  3. 角色和服务
  4. hdfs和yarn实战
  5. 访问日志

配置cdh

内容

改变一个已经存在的服务的配置

添加服务

添加DN

删除节点

升级版本

prb

如果很多节点上的角色要进行分组,每组进行不同的配置咋办?cm使用角色组的概念来进行统一配置 改配置有角色组级别和实例级别的修改

概念

service role 比如NN和DN 角色组role group 1个逻辑概念,多台机器上相同角色组成的一个组 role instance

角色组

2个角色组,default组3个节点 cm在安装时会基于硬件情况自动配置角色组

修改配置后的3个选项

最下面的右箭头表示的是在所有gateway客户端更新配置文件。有些配置既需要重新部署,也需要重启

配置文件

/var/run/cloudera-scm-agent/process/ 配置文件可以下载下来

配置文件分服务端和客户端,服务端配置文件有不同的版本号,所以一个配置文件可能会出现多次。2者的位置也不同,1个/etc/hadoop ,1个/var/log

节点管理

add,delete,decommission(下线)

hdfs配置

dfs.namenode.name.dir 元数据目录

可以配置多份,因为数据比较重要,要多备份几份

dsf.datanode.data.dir DN上数据存放的目录,也可以指定多个目录,可以轮循来用,比如第一个文件放目录1,第二个文件放目录2,为了IO负载均衡

dfs.blocksize 已经写的块用的原来的,新块用新配置的

dfs.replication 已经写的块用的原来的,新块用新配置的

hdfs内存设置: 所有服务的节点都有操作系统,所以要为操作系统预留起码3G NN:每 1百万 个块1G,推荐最低4G DN:最小1G,最大4G

日志

分2种,进程日志和应用日志,应用日志会自动聚合

日志保留的时间、最大容量都可以设置 主页 - log XXX

改日志级别:在每个服务的主页搜 loggingthreshold

查看日志:诊断 - 选择主机、服务、日志级别、时间窗

配置yarn

yarn.log-aggregation-enable 日志是否聚合,apache默认关,cdh默认开

yarn.nodemanager.remote-app-log-dir 日志聚合后放在哪,默认在一个临时目录

yarn.nodemanager.log-dirs 日志聚合之前会先存在本地,这个就是本地路径

yarn.nodemanager.local-dirs 本地资源文件

运行任务(比如mr任务)所需要的jar、配置文件等

经验分享 程序员 微信小程序 职场和发展