大数据上课笔记之Hadoop集群的启动和测试

大数据上课笔记之Hadoop集群的启动和测试 2023-03-22 376

一、启动和关闭Hadoop集群

1、主节点上启动hadoop集群

执行start-all.sh命令，一起启动hdfs和yarn服务，也可以分开启动两种服务。

1.1、启动hdfs服务

执行命令：start-dfs.sh

查看master虚拟机上的进程

查看slave1虚拟机上的进程

查看slave2虚拟机上的进程

1.2、启动yarn服务

执行命令：start-yarn.sh

启动了YARN守护进程；一个资源管理器（ResourceManager）在master虚拟机上，三个节点管理器（NodeManager）在master、slave1与slave2虚拟机上执行命令jps查看master虚拟机的进程

查看slave1和slave2上的进程，只有NodeManager和DataNode

2、主节点上停止Hadoop集群

在master虚拟机上执行命令：stop-all.sh（相当于同时执行了stop-dfs.sh与stop-yarn.sh）

二、Hadoop集群的测试

1、通过UI界面查看运行状态

Hadoop集群正常启动后，它默认开放了两个端口9870和8088，分别用于监控HDFS集群和YARN集群。通过UI界面可以方便地进行集群的管理和查看，只需要在本地操作系统的浏览器输入集群服务的IP和对应的端口号即可访问。

2、hadoop2和hadoop3端口区别表

分类应用 hadoop2的端口 hadoop3的端口 NN ports NameNode 8020 9820 NN https UI 50470 9871 NN http UI 50070 9870 SNN ports SNN http 50091 5869 SNN http UI 50090 9868 DN ports DN IPC 50020 9867 DataNode 50010 9866 DN ports 50475 9865 DN http UI 50075 9864

3、查看HDFS集群状态

不能通过主机名master加端口9870的方式，原因在于没有在hosts文件里IP与主机名的映射，现在只能通过IP地址加端口号的方式访问：192.168.219.75：9870 注意：访问前需要启动服务，命令：start-all.sh

修改宿主机的C:WindowsSystem32driversetchosts文件，增加hadoop集群主机名与IP地址的映射

此时，访问http://master:9870，从图中可以看出HDFS集群状态显示正常。

单击导航条上的【Datanodes】，查看数据节点信息

点开【Utilities】下拉菜单，选择【Browse the file system】

此时HDFS上是空的，因为我们没有上传和创建文件和文件夹

在HDFS上创建一个目录BigData，执行命令：hdfs dfs -mkdir /BigData

在Hadoop WebUI界面查看刚才创建的目录

4、查看YARN集群状态

访问http://192.168.219.75:8088/cluster，从图中可以看出YARN集群状态显示正常

单击[About]链接

三、Hadoop集群初体验 —— 词频统计

1、启动Hadoop集群

在master虚拟机上执行命令：start-all.sh

2、在虚拟机上准备文件

在master虚拟机上创建test.txt文件

3、文件上传到HDFS指定目录

上传test.txt文件到HDFS的/BigData目录（如果没有就创建目录）

利用HDFS命令查看文件是否上传成功

利用Hadoop WebUI查看文件是否上传成功

4、运行词频统计程序的jar包

查看Hadoop自带示例的jar包

执行命令：hadoop jar ./hadoop-mapreduce-examples-3.3.4.jar wordcount /BigData/test.txt /wc_result

查看输出目录/wc_result，执行命令：hdfs dfs -ls /wc_result

查看词频统计结果，执行命令：hdfs dfs -cat /wc_result/*

5、在HDFS集群UI界面查看结果文件

在HDFS集群UI界面，查看/wc_result目录

单击结果文件part-r-00000

6、在YARN集群UI界面查看程序运行状态

访问http://192.168.219.75:8088，看到FINISHED和SUCCEEDED

单击应用标识application_1667989977355_0001，查看应用的运行详情

四、总结复习

回顾老师所讲内容，并单独进行练习，完成词频统计。

免费搭建微信查券返利机器人来轻松赚佣金

文章来自:IT技术分享网
分享地址:http://www.5ityx.cn/cate112/235742.html

上一篇： JS实现多线程数据分片下载

下一篇： ChatGPT使用指南,其他要搭建属于我的机器人