CDH-CM和CDH大数据运维官方课程
学习目标
- 使用cm管理cdh
- 配置
- 角色和服务
- hdfs和yarn实战
- 访问日志
配置cdh
内容
改变一个已经存在的服务的配置
添加服务
添加DN
删除节点
升级版本
prb
如果很多节点上的角色要进行分组,每组进行不同的配置咋办?cm使用角色组的概念来进行统一配置 改配置有角色组级别和实例级别的修改
概念
service role 比如NN和DN 角色组role group 1个逻辑概念,多台机器上相同角色组成的一个组 role instance
角色组
2个角色组,default组3个节点 cm在安装时会基于硬件情况自动配置角色组
修改配置后的3个选项
最下面的右箭头表示的是在所有gateway客户端更新配置文件。有些配置既需要重新部署,也需要重启
配置文件
/var/run/cloudera-scm-agent/process/ 配置文件可以下载下来
配置文件分服务端和客户端,服务端配置文件有不同的版本号,所以一个配置文件可能会出现多次。2者的位置也不同,1个/etc/hadoop ,1个/var/log
节点管理
add,delete,decommission(下线)
hdfs配置
dfs.namenode.name.dir 元数据目录
可以配置多份,因为数据比较重要,要多备份几份
dsf.datanode.data.dir DN上数据存放的目录,也可以指定多个目录,可以轮循来用,比如第一个文件放目录1,第二个文件放目录2,为了IO负载均衡
dfs.blocksize 已经写的块用的原来的,新块用新配置的
dfs.replication 已经写的块用的原来的,新块用新配置的
hdfs内存设置: 所有服务的节点都有操作系统,所以要为操作系统预留起码3G NN:每 1百万 个块1G,推荐最低4G DN:最小1G,最大4G
日志
分2种,进程日志和应用日志,应用日志会自动聚合
日志保留的时间、最大容量都可以设置 主页 - log XXX
改日志级别:在每个服务的主页搜 loggingthreshold
查看日志:诊断 - 选择主机、服务、日志级别、时间窗
配置yarn
yarn.log-aggregation-enable 日志是否聚合,apache默认关,cdh默认开
yarn.nodemanager.remote-app-log-dir 日志聚合后放在哪,默认在一个临时目录
yarn.nodemanager.log-dirs 日志聚合之前会先存在本地,这个就是本地路径
yarn.nodemanager.local-dirs 本地资源文件
运行任务(比如mr任务)所需要的jar、配置文件等