第一章 Hadoop概念及入门

第一章 Hadoop概念及入门 2023-07-14 543

hadoop学习从以下几方面展开：

Hadoop基础概念

大数据：无法在一定的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，需要新处理模式才能具备更强大的决策力、洞察发现力、流程优化能力的海量、高增长率和多样化的信息资产。TB、PB、EB以上的数据量可称为大数据。大数据主要解决，海量数据的采集、存储和分析计算问题。
大数据的特点（4V）：volume（大量）、Velocity（高速）、Variety（多样）、value（低价值密度），如何快速对有价值得的数据进行“提纯”，目前是大数据背景下有待解决的问题。
大数据发展前景：党的十九大提出“推动互联网、大数据、人工智能和实体经济深度结合”、2020年初，中央推出34万亿“新基建”投资计划、下一个风口5G，可以带来每秒钟10G的数据。
大数据部门间业务流程分析：产品人员提出需求（统计实时交易额，销售排行榜）、数据部门搭建数据平台，分析数据指标、数据可视化（报表展示、邮件发送、大屏展示）
大数据部门内组织结构：平台组、数据仓库组、实时组、数据挖掘组、报表开发组

Hadoop概述及入门

概念

hadoop是什么：由apache基金会所开发的分布式系统基础架构；主要解决海量数据的存储和海量数据的分析计算问题；从广义上来说，hadoop通常指的是hadoop生态圈。
hadoop发展历史：创始人DougCutting，为了实现全文搜索功能，其在Lucene框架上进行优化升级，查询引擎和搜索引擎；2001年年底Lucene称为apache基金会的一个子项目；对于海量数据Lucene框架面对存储海量数据困难，检索海量速度慢的困难，创建微型版Nutch；随后DougCutting等人用了两年业余时间实现了DFS和MapReduce机制，是Nutch性能飙升；2005年hadoop作为Lucene的子项目nutch的一部分正式引入apache基金会；2006年3月份，MapReduce和Nutch Distribute file System(NDFS)分别被纳入到Hadoop项目中，Hadoop就此诞生，标志着大数据时代来临。
hadoop三大发行版本：Apache（2006年，最原始，最基础的版本）、Cloudera（2008内部集成了很多大数据框架，对应产品CDH）、Hortonworks（2011文档较好，对应产品HDP，现一杯Clouddera公司收购，推出新品牌CDP）
hadoop优势：高可靠性（底层维护多个数据副本）、高扩张性（在集群间分配任务数据，方便的扩展数以千计的节点，动态增加/删除服务器）、高效性（并行工作，任务处理速度快）、高容错性（能将失败的任务重新分配）
hadoop组成：hadoop3.x在组成上没有变化，细节上有优化。 1）HDFS：分布式文件系统。nameNode（存储文件的元数据，如文件名、文件目录结构、文件属性、以及每个文件的块列表和块所在的DataNode等）、DataNode（在本地文件系统存储文件块数据，以及块数据的校验和）、SecondaryNameNode（每个一段时间对NameNode元数据备份）。 2）YARN：另一种资源协调者，是hadoop的资源管理器。 3）MapReduce：分发任务map，汇总计算Reduce；4）HDFS、YARN、MapReduce的关系
大数据技术生态体系：
推荐系统案例架构

环境准备（见后续）

模板虚拟机的准备
克隆
安装JDK、Hadoop

hadoop生产集群搭建（见后续）

本地模式
完全分布式集群

常见错误解决方案（见后续）

免费搭建微信查券返利机器人来轻松赚佣金

文章来自:IT技术分享网
分享地址:http://www.5ityx.cn/cate100/357158.html

上一篇： .gitignore 文件不生效问题 & 解决方法

下一篇： zookeeper之watch事件延迟

第一章 Hadoop概念及入门

hadoop学习从以下几方面展开：

Hadoop基础概念

Hadoop概述及入门

第一章 Hadoop概念及入门 相关内容

聚合标签

第一章 Hadoop概念及入门相关内容