五、Hadoop集群部署:从零搭建三节点Hadoop环境(保姆级教程)

article/2025/6/18 7:16:28

作者:IvanCodes
日期:2025年5月7日
专栏:Hadoop教程

前言:
想玩转大数据Hadoop集群是绕不开的一道坎。很多小伙伴一看到集群部署就头大各种配置各种坑别慌这篇教程就是你的“救生圈”


一、磨刀不误砍柴工:环境准备(虚拟机与网络)

虚拟机克隆与基础配置 (以VMware为例)

第一步:准备一台基础Linux虚拟机:

你需要一台安装好Linux(推荐CentOS 7 或 Ubuntu 24.04.2/20.04)的虚拟机。确保它已安装常用工具,网络能通。

  • centos 7的详细安装教程可以参考《安装篇–CentOS 7 虚拟机安装》
  • Ubuntu 24.04.2的详细安装教程可以参考《安装篇–Ubuntu24.04.2详细安装教程》
第二步:克隆虚拟机:

1.启动克隆向导: 在VMware Workstation中,右键点击你准备好的虚拟机,选择 “管理” -> “克隆”。

在这里插入图片描述
接着会弹出“欢迎使用克隆虚拟机向导”界面,直接点击“下一步”。
在这里插入图片描述
2.选择克隆源: 默认选择“虚拟机中的当前状态”,直接点击“下一步”。
在这里插入图片描述
3.选择克隆类型: 选择“创建完整克隆”。完整克隆会复制整个虚拟硬盘,确保每台“小鸡”都是独立的,不会相互影响。链接克隆虽然省空间,但不适合我们做集群。点击“下一步”。
在这里插入图片描述
4.命名与存放位置:
在这里插入图片描述

第三步:Windows宿主机VMnet8网卡IP配置

1.在Windows设置中,进入 “网络和 Internet”
2.点击 “高级网络设置”
在这里插入图片描述
3.找到 “VMware Network Adapter VMnet8”,展开它,点击 “查看其他属性”
在这里插入图片描述
4.点击“IP 分配”旁边的“编辑”
在这里插入图片描述
5.在“编辑 IP 设置”中,选择“手动”,打开IPv4,然后填写IP地址(如 192.168.121.1)和子网掩码(255.255.255.0)。网关和DNS对于这个宿主机的虚拟网卡通常不需要填写,或者可以填写VMnet8的网关(192.168.121.2)和你的常用DNS。
在这里插入图片描述

第四步:VMware虚拟网络配置 (关键步骤!)

1.在VMware Workstation主界面,点击菜单栏的 “编辑” -> “虚拟网络编辑器”
在这里插入图片描述
2.在“虚拟网络编辑器”中,你会看到一个网络列表,找到 VMnet8 (通常类型是NAT模式)
3.如果下方的配置选项是灰色的,你需要点击右下角的 “更改设置” 按钮,并可能需要提供管理员权限
在这里插入图片描述
4.选中VMnet8,然后进行以下配置:

4.1.确保连接类型选择 “NAT模式(与虚拟机共享主机的IP地址)”
4.2.取消勾选 “使用本地DHCP服务将IP地址分配给虚拟机”
子网IP: 输入 192.168.121.0
子网掩码: 输入 255.255.255.0
在这里插入图片描述
5.配置NAT设置 (网关):
“网关 IP(G):” 设置为 192.168.121.2
在这里插入图片描述
配置DHCP设置 (定义IP地址范围,可选但推荐检查):
起始 IP 地址(S): 192.168.121.130
结束 IP 地址(E): 192.168.121.255

在这里插入图片描述

第五步:Linux虚拟机静态IP配置 (核心!以CentOS 7为例):

每台Linux虚拟机上,编辑网络配置文件,例如 /etc/sysconfig/network-scripts/ifcfg-ens33 (你的网卡名可能不同)。

 vim /etc/sysconfig/network-scripts/ifcfg-ens33

在这里插入图片描述
hadoop02 的配置:将 IPADDR 改为 192.168.121.132
hadoop03 的配置:将 IPADDR 改为 192.168.121.133

  • 配置源码 (ifcfg-ensXX):
TYPE=Ethernet
PROXY_METHOD=none
BROWSER_ONLY=no
BOOTPROTO=static
DEFROUTE=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_FAILURE_FATAL=no
IPV6_ADDR_GEN_MODE=stable-privacy
NAME=ensXX
DEVICE=ensXX
ONBOOT=yes
IPADDR=192.168.121.131
NETMASK=255.255.255.0
GATEWAY=192.168.121.2  
DNS1=114.114.114.114    
  • 配置主机映射
  • hadoop01, hadoop02, hadoop03上都执行:
vim /etc/hosts

在这里插入图片描述

  • 修改 hadoop01 的主机名:
hostnamectl set-hostname hadoop01
  • 重启主机
reboot
  • ip a验证ip是否改正
  • 查看网络能否正常ping

在这里插入图片描述

第六步:使用FinalShell连接虚拟机:

在这里插入图片描述
在这里插入图片描述

2. 关闭防火墙和selinux

  • 关闭防火墙:
systemctl stop firewalld
systemctl disable firewalld
  • 关闭SELinux:
vim /etc/selinux/config
# SELINUX=disabled
#需重启虚拟机

在这里插入图片描述

3.配置SSH免密登录 (核心):
hadoop01 中执行:

#验证ssh协议
ps -e | grep sshd
#生成钥匙
ssh-keygen -t rsa
#复制密码发送到其他设备
ssh-copy-id root@hadoop01
ssh-copy-id root@hadoop02
ssh-copy-id root@hadoop03

在这里插入图片描述
在这里插入图片描述

4.时间同步 (NTP):

yum install -y ntp
systemctl start ntpd
systemctl enable ntpd

在这里插入图片描述
在这里插入图片描述

5. 安装Java JDK

# 创建存放软件和安装包的目录
mkdir -p /export/server /export/softwares

5.1.上传并解压JDK安装包:
将你准备好的 jdk-8u361-linux-x64.tar.gz 文件,通过 FinalShell 的上传功能(或者其他sftp工具),上传到三台虚拟机/export/softwares/ 目录下。

进入 /export/server/ 目录,并解压 JDK 安装包:

cd /export/server/ # 进入我们计划安装软件的目录
# 解压 JDK 安装包
tar -xzf /export/softwares/jdk-8u361-linux-x64.tar.gz
# 解压后通常会得到一个名为 jdk1.8.0_361 的目录,用ls确认一下
ls /export/server/

在这里插入图片描述

5.2.配置 JAVA_HOME 环境变量:
每台机器上,编辑环境变量文件 ~/.bashrc

vim ~/.bashrc

在这里插入图片描述

export JAVA_HOME=/export/server/jdk1.8.0_361 # 注意这里的路径和解压出来的目录名一致
export PATH=$PATH:$JAVA_HOME/bin
source ~/.bashrc

在这里插入图片描述

二、Hadoop 安装与配置

1. 解压Hadoop到指定目录 (/export/server/)

  • 上传Hadoop安装包:hadoop-3.3.4.tar.gz 安装包,通过 FinalShell 上传到三台虚拟机/export/softwares/ 目录下。

  • 解压Hadoop到 /export/server/ 并重命名:

# 解压 Hadoop 安装包
tar -xzf /export/softwares/hadoop-3.3.4.tar.gz
# 为了方便,我们把它重命名为简洁的 hadoop
mv hadoop-3.3.4 hadoop

在这里插入图片描述

2. 配置Hadoop环境变量

编辑~/.bashrc 文件,追加 Hadoop 相关的环境变量:

vim ~/.bashrc

在这里插入图片描述

在文件末尾添加:

export HADOOP_HOME=/export/server/hadoop # 注意这里的路径是自定义安装路径
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin # 将 Hadoop 的命令加入到 PATH
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop # 指定 Hadoop 配置文件的位置
export HADOOP_LOG_DIR=$HADOOP_HOME/logs # 指定 Hadoop 日志文件的位置

让环境变量生效:

source ~/.bashrc

在这里插入图片描述

3. 修改Hadoop核心配置文件 (重点)

主要在 hadoop01 上修改,然后分发给其他节点。

  • (A) hadoop-env.sh (所有节点一致修改)
    • 这个文件主要配置 Hadoop 运行的环境,比如指定 Java。
cd /export/server/hadoop/etc/hadoop/
vim hadoop-env.sh
export JAVA_HOME=/export/server/jdk1.8.0_361 
export HDFS_NAMENODE_USER="root"
export HDFS_DATANODE_USER="root"
export HDFS_SECONDARYNAMENODE_USER="root"
export YARN_RESOURCEMANAGER_USER="root"
export YARN_NODEMANAGER_USER="root"

在这里插入图片描述

在这里插入图片描述

  • (B) core-site.xml (所有节点一致修改)
    • 这是 Hadoop 的核心配置文件,配置HDFS的地址、临时文件目录等。
vim /core-site.xml
<configuration><!-- 指定HDFS中NameNode的地址 --><property><name>fs.defaultFS</name><value>hdfs://hadoop01:9000</value></property><!-- 指定Hadoop运行时产生文件的存储目录,比如MapReduce的临时数据 --><property><name>hadoop.tmp.dir</name><value>/export/data/hadoop</value> <!-- 修改为自定义路径下的临时数据目录 --></property><!-- (可选但推荐) 用于WebHDFS和HTTPFS的用户模拟配置,让指定用户(这里是hadoopuser)可以模拟其他用户 --><property><name>hadoop.proxyuser.hadoopuser.hosts</name><value>*</value></property><property><name>hadoop.proxyuser.hadoopuser.groups</name><value>*</value></property>
<!-- 整合hive 用户代理设置 -->
<property><name>hadoop.proxyuser.root.hosts</name><value>*</value>
</property>
<property><name>hadoop.proxyuser.root.groups</name><value>*</value>
</property>
</configuration>
  • © hdfs-site.xml (所有节点一致修改)
    • 这个文件配置 HDFS 的具体参数,比如副本数量、NameNode和DataNode数据存放位置等。
vim hdfs-site.xml
<configuration><!-- NameNode的Web UI访问地址 (Hadoop 3.x默认端口9870) --><property><name>dfs.namenode.http-address</name><value>hadoop01:9870</value></property><!-- SecondaryNameNode的Web UI访问地址 (Hadoop 3.x默认端口9868) --><property><name>dfs.secondary.http-address</name><value>hadoop01:9868</value> <!-- 我们也让它在hadoop01上 --></property><!-- SecondaryNameNode所在的主机和端口,NameNode会向它发送元数据 --><property><name>dfs.namenode.secondary.http-address</name><value>hadoop01:9868</value></property><!-- HDFS副本数量,我们有3个节点,可以设置为2或3。这里先设为2,至少保证有两个DataNode时数据有冗余 --><property><name>dfs.replication</name><value>2</value></property><!-- NameNode元数据(fsimage和editlog)存放的本地磁盘路径 --><property><name>dfs.namenode.name.dir</name><value>file:/export/server/hadoop/dfs_data/name</value> <!-- 修改为自定义路径 --></property><!-- DataNode数据块存放的本地磁盘路径 --><property><name>dfs.datanode.data.dir</name><value>file:/export/server/hadoop/dfs_data/data</value> <!-- 修改为自定义路径 --></property><!-- 开启WebHDFS功能,可以通过HTTP访问HDFS文件 --><property><name>dfs.webhdfs.enabled</name><value>true</value></property>
</configuration>
  • (D) yarn-site.xml (所有节点一致修改)
    • 这是 YARN (资源管理器) 的配置文件。
vim yarn-site.xml
<configuration><!-- 指定YARN的ResourceManager(RM)的主机名 --><property><name>yarn.resourcemanager.hostname</name><value>hadoop01</value></property><!-- NodeManager上运行的附属服务,MapReduce Shuffle是必须的 --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!-- ResourceManager的Web UI访问地址 (默认端口8088) --><property><name>yarn.resourcemanager.webapp.address</name><value>hadoop01:8088</value></property><!-- (可选) 开启日志聚集功能,方便在Web UI上查看已完成任务的日志 --><property><name>yarn.log-aggregation-enable</name><value>true</value></property><!-- MapReduce JobHistory Server 的日志服务地址 --><property><name>yarn.log.server.url</name><value>http://hadoop01:19888/jobhistory/logs</value> <!-- 指向JobHistoryServer的Web UI --></property><!-- (可选) 日志保留时间 --><property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value> <!-- 日志保留7天 (604800秒) --></property>
</configuration>
  • (E) mapred-site.xml (所有节点一致修改)
    • 这个文件配置 MapReduce 的运行时框架和 JobHistory Server。
vim mapred-site.xml
<configuration><!-- 指定MapReduce作业运行在YARN上 --><property><name>mapreduce.framework.name</name><value>yarn</value></property><!-- MapReduce JobHistory Server 地址 --><property><name>mapreduce.jobhistory.address</name><value>hadoop01:10020</value></property><!-- MapReduce JobHistory Server Web UI 地址 (默认端口19888) --><property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop01:19888</value></property><!-- (Hadoop 3.x需要) 使YARN能够正确找到和分发MapReduce相关的JAR包 --><property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property><property><name>mapreduce.map.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property><property><name>mapreduce.reduce.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property>
</configuration>
  • (F) workers 文件 (仅在 hadoop01 上修改,然后分发)
    • 这个文件告诉 start-dfs.shstart-yarn.sh 脚本,需要在哪些机器上启动 DataNode 和 NodeManager 进程。
vim workers
hadoop01
hadoop02
hadoop03

4. 分发配置文件 (在 hadoop01 上执行)

好了,配置文件修改完了。把 hadoop01 上的配置文件同步到 hadoop02hadoop03 去。

  • 确保你在 hadoopuser 用户下,且在 $HADOOP_HOME/etc/ 目录下(也就是 /export/server/hadoop/etc/)。
cd /export/server
scp ~/.bashrc hadoop02:~/.bashrc
scp ~/.bashrc hadoop03:~/.bashrc
#传完之后要在hadoop02和hadoop03上分别执行 source /etc/profile 命令,来刷新配置文件
scp -r hadoop hadoop02:$PWD
scp -r jdk1.8.0_361 hadoop02:$PWD
scp -r hadoop hadoop03:$PWD
scp -r jdk1.8.0_361 hadoop03:$PWD

5.验证是否成功
在这里插入图片描述


http://www.hkcw.cn/article/LggvbGNJRy.shtml

相关文章

Java 大视界 -- Java 大数据在智能政务舆情监测与引导中的情感分析与话题挖掘技术(272)

&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎来到 青云交的博客&#xff01;能与诸位在此相逢&#xff0c;我倍感荣幸。在这飞速更迭的时代&#xff0c;我们都渴望一方心灵净土&#xff0c;而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识&#xff0c;也…

Java 大视界 -- Java 大数据在智能安防视频监控中的异常事件快速响应与处理机制(273)

&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎来到 青云交的博客&#xff01;能与诸位在此相逢&#xff0c;我倍感荣幸。在这飞速更迭的时代&#xff0c;我们都渴望一方心灵净土&#xff0c;而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识&#xff0c;也…

详解RabbitMQ高级特性之发送方确认机制

目录 发送方确认 添加配置 常量类 声明队列和交换机并绑定二者关系 confirm确认模式 编写生产消息代码 生产消息1 解决方法 多次生产消息2 解决方法 生产消息3 return 模式 编写生产消息代码&#xff08;路由正确&#xff09; 生产消息1 编写生产消息代码&…

端午假期重庆共揽客730余万 文旅活动丰富多彩

端午假期,重庆文旅市场活力十足。据重庆市文化和旅游数据中心初步测算,全市接待国内游客730.11万人次,同比增长4.1%,国内游客花费45.13亿元,同比增长9.4%。从景区来看,端午节假日期间,重庆市重点监测的140家景区累计接待游客255.8万人次,同比增长6.3%。洪崖洞风俗风貌区…

国足生死战继续442 出线希望悬于一线

中国男足将于2025年6月5日迎来2026年世界杯亚洲区预选赛18强赛的关键一战,客场挑战印度尼西亚队。这场比赛对于国足来说至关重要,只有胜利才能保留出线希望,输球或平局都将导致淘汰。中国男足25名球员在主教练伊万的带领下于2日晚抵达印尼开始备战。从此前公布的大名单及上海…

民警吃馄饨时助店主挽回30万 休假不忘职责

近日,一面锦旗和一封感谢信送到了云南西双版纳边境管理支队,同事们才知道民警田铁林在休假期间“吃了一碗价值30万的馄饨”。不久前,休假中的田铁林在一家街头馄饨店用餐。店里杂乱的餐桌没人收拾,老板娘玉女士坐在厨房接电话,眉头紧皱,嘴里念叨着数字验证码。田铁林凭借…

【图像处理】基于双目立体匹配的景深计算(Matlab代码实现)​

&#x1f468;‍&#x1f393;个人主页 &#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&a…

VGG16模型:图像处理深度学习的象征

本文还有配套的精品资源&#xff0c;点击获取 简介&#xff1a;VGG16&#xff0c;作为深度学习领域的里程碑&#xff0c;以其独特的16层深度网络架构在2014年ILSVRC中取得突破。该模型主要采用3x3的小型卷积核&#xff0c;通过深层次的卷积层堆叠来提升模型复杂度。VGG16通常…

使用场景广泛存在于各种编程应用当中,比如图像处理中的像素点集合、科学计算里的数值

数组的数据结构 数组是一种线性的数据结构&#xff0c;其中所有的元素都具有相同的数据类型并按照连续的方式存储在内存中。这种特性使得通过索引访问特定位置上的元素变得非常高效。 对于多维数组而言&#xff0c;其本质上是由多个一维数组嵌套而成。例如二维数组可以视为由…

计算机眼中的图像处理基础:灰度化与二值化实验详解

在计算机视觉和图像处理领域&#xff0c;理解计算机如何"看"图像是基础中的基础。本文将详细介绍图像处理中的两个核心概念&#xff1a;灰度化和二值化&#xff0c;并通过实验方法展示不同算法的效果差异。 一、计算机眼中的图像 1. 像素 像素(Pixel)是图像的基本…

OpenCV学习路线全解析!从入门图像处理到计算机视觉实战,搭建你的视觉AI技能体系

想进入计算机视觉领域&#xff0c;OpenCV 几乎是绕不开的第一站。它是一个开源的视觉工具库&#xff0c;拥有丰富的图像处理、识别、追踪等能力&#xff0c;被广泛用于教育、科研和工业场景。 但 OpenCV 功能强大&#xff0c;文档复杂&#xff0c;很多初学者“安装完不知道干啥…

图像处理——卷积

一、什么是卷积 卷积可以理解为两个函数f和g的重叠运算&#xff0c;通过将一个函数翻转并滑动到另一个函数上&#xff0c;计算它们在重叠点的乘积并求和&#xff0c;从而生成一个新的函数。数学上&#xff0c;卷积的表达式通常为&#xff1a; (f∗g)(t)∫−∞∞​f(τ)g(t−τ)…

【图像轮廓特征查找】图像处理(OpenCV) -part8

17 图像轮廓特征查找 图像轮廓特征查找其实就是他的外接轮廓。 应用&#xff1a; 图像分割 形状分析 物体检测与识别 根据轮廓点进行&#xff0c;所以要先找到轮廓。 先灰度化、二值化。目标物体白色&#xff0c;非目标物体黑色&#xff0c;选择合适的儿值化方式。 有了轮…

CImage类在VS2010中的应用与图像处理教程

本文还有配套的精品资源&#xff0c;点击获取 简介&#xff1a;本文旨在介绍如何在Visual Studio 2010中使用MFC库的CImage类进行图像处理。首先概述了CImage类的功能&#xff0c;然后详细讲解了加载、显示、保存图像以及进行裁剪、缩放、旋转等操作的方法。提供了示例代码&a…

【机器学习】图像处理与深度学习利器:OpenCV实战攻略全面解析

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 前言 OpenCV想必大家都听过跨平台计算机视觉库&#xff0c;可以运行在Linux、Windows、Android和Mac OS操作系统上。它轻量级而…

机器学习中的图像处理与计算机视觉

引言 在现代计算机科学中&#xff0c;图像处理和计算机视觉已成为最活跃的研究领域之一&#xff0c;这得益于机器学习和深度学习的发展。本文将深入探讨图像处理与计算机视觉的基础概念、常见应用、关键技术、常用工具&#xff0c;以及在这些领域中的代码示例。通过本篇文章&a…

Fiji —— 基于 imageJ 的免费且开源的图像处理软件

文章目录 一、Fiji —— 基于 imageJ 的免费且开源的图像处理软件1.1、Fiji工具安装&#xff08;免费&#xff09;1.2、Fiji源码下载1.2、Fiji - Plugins插件安装 二、功能详解2.0、Fiji - ImageJ&#xff08;Web应用程序&#xff09;2.1、常用功能&#xff08;汇总&#xff09…

深入了解 OpenCV:C# 开发者的图像处理利器

OpenCV&#xff08;Open Source Computer Vision Library&#xff09;是一个开源的计算机视觉与图像处理库&#xff0c;自 2000 年由 Intel 开发以来&#xff0c;已经发展成为业界领先的图像处理框架之一。凭借其跨平台特性、丰富的功能集以及活跃的社区支持&#xff0c;OpenCV…

巴黎世家平角短裤造型裙子已缺货 时尚争议再起

近日,奢侈品牌巴黎世家推出的一款售价4500元的女款半身裙在网上引发热议。不少网友吐槽该裙子造型与平角短裤极为相似,直呼“看不懂时尚”。据巴黎世家官网介绍,这款深蓝色弹力平纹针织半身裙亮相于2025秋季系列Look 50和Look 54。裙子采用弹力棉混纺平纹针织面料,设计为平…

日本男子杀害妻子幼女后自杀 家庭悲剧震惊邻里

6月2日上午,日本大阪府吹田市发生一起悲剧。一名26岁男子从世博会馆附近的一座天桥上跳下自杀。警方随后在其家中发现了他妻子和两名幼女的尸体,三人腹部血流不止,已经死亡。现场还发现了一把带血的菜刀和一张字条,字条上写着对女儿和妻子的歉意。据警方透露,当天早上6点2…