無論是科研機構、金融機構還是互聯網企業,Hadoop都扮演著舉足輕重的角色
本文將詳細介紹如何在Linux系統上安裝和配置Hadoop,幫助您快速搭建起大數據處理的基石
一、準備工作 在動手之前,確保您已經具備以下條件: 1.Linux系統:Hadoop支持多種Linux發行版,如Ubuntu、CentOS、Debian等
本文將以Ubuntu Server 20.04 LTS為例進行說明
2.Java環境:Hadoop依賴于Java運行,因此需要先安裝Java Development Kit(JDK)
推薦使用OpenJDK 11或以上版本
3.SSH服務:Hadoop節點間需要通過SSH進行通信,確保SSH服務已安裝并配置好無密碼登錄(使用SSH密鑰)
4.網絡配置:確保所有Hadoop節點之間網絡互通,能夠相互訪問
二、安裝Java環境 1.更新系統包索引: bash sudo apt update 2.安裝OpenJDK 11: bash sudo apt install openjdk-11-jdk 3.驗證安裝: bash java -version javac -version 確保輸出的版本信息中包含“11”字樣,表示安裝成功
三、安裝SSH服務并配置無密碼登錄 1.安裝SSH服務(通常默認已安裝): bash sudo apt install openssh-server 2.啟動SSH服務: bash sudo systemctl start ssh sudo systemctl enable ssh 3.生成SSH密鑰對(如果未生成): bash ssh-keygen -t rsa -b 4096 -C [email protected] 按提示操作,默認路徑下生成`~/.ssh/id_rsa`(私鑰)和`~/.ssh/id_rsa.pub`(公鑰)
4.將公鑰復制到本地用戶的`~/.ssh/authorized_keys`文件中: bash cat ~/.ssh/id_rsa.pub ] ~/.ssh/authorized_keys chmod 600 ~/.ssh/authorized_keys 5.測試無密碼登錄: bash ssh localhost 如果無需輸入密碼即可登錄,說明配置成功
四、下載并安裝Hadoop 1.下載Hadoop: 訪問【Apache Hadoop官方下載頁面】(https://hadoop.apache.org/releases.html),下載最新的穩定版本,如`hadoop-3.3.1.tar.gz`
2.解壓Hadoop: bash wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz tar -xzf hadoop-3.3.1.tar.gz sudo mv hadoop-3.3.1 /usr/local/hadoop 3.設置環境變量: 編輯`~/.bashrc`或`/etc/profile`,添加以下行: bash export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin 然后執行`source ~/.bashrc`或重新登錄以使更改生效
五、配置Hadoop Hadoop的配置文件主要位于`$HADOOP_HOME/etc/hadoop/`目錄下,以下是關鍵配置文件的修改說明: 1.hadoop-env.sh: 設置Java路徑: bash exportJAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 2.core-sit