上一篇主要写了Linux的初步学习,及相关软件的配置安装,没想到这么快就用到了,接触hadoop快一个月了,大致了解了其中的运行机制,主要包括两方面:1,HDFS进行文件存储,2,MapReduce进行数据分析处理。通过网上的资料查询,终于把hadoop单机版配置好了,于是把配置过程总结一下。
1,安装JDK,我用的是openjdk1.6版本
sudo apt-get install openjdk-6-jdk
2,配置JDK环境变量
sudo gedit /etc/environment
在其中添加如下两行: CLASSPATH=./:/usr/lib/jvm/java-6-openjdk/lib JAVA_HOME=/usr/lib/jvm/java-6-openjdk PATH添加::/usr/lib/jvm/java-6-openjdk3,验证JDK的配置
env|grep JAVA
4,安装SSH
sudo apt-get install ssh
5,安装rsync
sudo apt-get install rsync
6,配置SSH免密码登录
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >>~/.ssh/authorized_keys
7,验证SSH是否成功
ssh localhost
8,下载,安装hadoop
hadoop-1.0.4-bin.tar.gz
9,修改hadoop配置文件,指定JDK安装路径
vi conf/hadoop-env.sh
export JAVA_HOME=/home/app/jdk/java-6-openjdk-i386
10,修改hadoop核心配置文件core-site.xml,配置HDFS的地址和端口号
vi conf/core-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
11,修改hadoop中HDFS配置,修改replication
vi conf/hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
12,修改hadoop中MapReduce的配置文件,配置的是JobTracker地址和端口
vi conf/mapred-site.xml
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
13,格式化hadoop文件系统HDFS
bin/hadoop namenode -format
14,启动hadoop
bin/start-all.sh
15,最后一步验证hadoop是否安装成功
MapReduce的web页面:
HDFS的web页面:
hadoop的单机伪分布终于安装好了,中间出现了一些问题,主要还是细节方面自己不太细心。我是总结网上其的配置方法,基本上市大同小异,感觉自己写的步骤还算比较完整,实践以后思路更加清晰。下一步,hadoop下的第一个示例程序运行。接着还有hadoop的集群搭建,这个已经有了思路。
最近一个月很忙,三篇论文,两场考试。
We are drowning in data,but starving for knowledge.