搜索
您的当前位置:首页hadoop实验报告

hadoop实验报告

来源:小侦探旅游网


基于hadoop的大规模文本处理技术实验

专 业 班 级 : 软件1102

学 生 姓 名 : 张国宇

学 号 :

Setup Hadoop on Ubuntu 11.04 64-bit

提示: 前面的putty软件安装省略;直接进入JDK的安装。

1. Install Sun JDK<安装JDK>

由于Sun JDK在ubuntu的软件中心中无法找到,我们必须使用外部的PPA。打开终端并且运行以下命令:

sudo add-apt-repository ppa:ferramroberto/java sudo apt-get update

sudo apt-get install sun-java6-bin sudo apt-get install sun-java6-jdk Add JAVA_HOME variable<配置环境变量>: 先输入粘贴下面文字: sudo vi /etc/environment

再将下面的文字输入进去:按i键添加,esc键退出,X保存退出;如下图:

export JAVA_HOME=\\/usr/lib/jvm/java-6-sun-1.6.0.26

Test the success of installation in Terminal<在终端测试安装是否成功>:

sudo . /etc/environment java –version >

的设置ssh检查2. Check SSH Setting< ssh localhost

如果出现“connection refused”,你最好重新安装 ssh(如下命令可以安装):

sudo apt-get install openssh-server openssh-client 如果你没有通行证ssh到主机,执行下面的命令: ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 3. Setup Hadoop<安装hadoop> 安装 apache2

sudo apt-get install apache2

下载hadoop:

1.0.4

解压hadoop所下载的文件包: tar xvfz hadoop-1.0.4.tar.gz

下载最近的一个稳定版本,解压。编辑/ hadoop-env.sh定义java_home“use/library/java-6-sun-1.6.0.26”作为hadoop的根目录:

Sudo vi conf/hadoop-env.sh 将以下内容加到文件最后:

# The java implementation to use. Required. export JAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.26

Pseudo-Distributed Operation (Single-Node Cluster)<伪分布式操作(单 节点集群)>:

)(得到如图:将下面中间部分插入: cat conf/core-site.xml: cat conf/hdfs-site.xml:

dfs.replication 1

cat conf/mapred-site.xml:

localhost:9001

Switch to hadoop root directory and format a new distributed file

system<转向根目录,格式化一个新的文件分布式系统 >: bin/hadoop namenode –format

注意:这一步一定不能掉,否则后面会出错!

You'll get info like “Storage directory

/tmp/hadoop-ubuntu/dfs/name has been successfully formatted.” Remember this path is the HDFS home directory of namenode.(你会得到提示:你已经成功格式化。)

Start and stop hadoop daemons(启动和终止进程。): bin/start-all.sh (start the hadoop) bin/stop-all.sh (stop the hadoop)

Web interfaces for the NameNode and the JobTracker: NameNode –

提示:如果前面没有格式化成功,这个网址会出现就不去的现象!!!如果进不去就先结束进程,重新格式化然后再开始进程。 JobTracker –

4. Deploy An Example Map-Reduce Job<布置 Ma-reduce Job的一

个例子>

创建路径 /home/ubuntu/mapreduce/wordcount/,并在该目录下放置文本文件worldcount.txt。然后将这些文件复制到HDFS目录:

bin/hadoop dfs -copyFromLocal /home/ubuntu/mapreduce/wordcount /tmp/hadoop-ubuntu/dfs/name/wordcount

bin/hadoop dfs -ls /tmp/hadoop-ubuntu/dfs/name/wordcount Run the job:

bin/hadoop jar hadoop*examples*.jar wordcount /tmp/hadoop-ubuntu/dfs/name/wordcount /tmp/hadoop-ubuntu/dfs/name/wordcount-output

If the output info looks no problem, copy the output file from HDFS

to local directory<如果输出信息看起来没有问题,从HDFS输出复制文件到本地目录的:>: bin/hadoop dfs -getmerge

/tmp/hadoop-ubuntu/dfs/name/wordcount-output /home/ubuntu/mapreduce/wordcount/

Now you can open the output file in your local directory to view the

results<现在你可以打开输出文件在您的本地目录查看结果。>. 实验总结:

1、 在实验过程中,发现对linux系统命令还不够熟练,在下面还需

要多加练习;

2、 感觉自己的基础水平还是不能达到自己满意程度,感觉对于很多东西都还是未知的,对于新的知识了解甚少,这个还需要在下面下很大的功夫;

了解的比较少,所以有些实验内容不能够实现。python和Java 、3.

因篇幅问题不能全部显示,请点此查看更多更全内容

Top