参考的主要博客:Ubuntu16.04搭建hadoop伪分布式环境 - 成程晨 - 博客
hadoop一共有三种模式,分别是单机模式、伪分布式模式和完全分布式模式。
单机模式:在一台单机上运行,没有分布式文件系统,直接读写本地操作系统的文件系统。
hadoop伪分布式和完全分布式的差异:
主要可分为以下几个步骤:
首先需要先下载好VMware和Linux操作系统(我选择的是 Ubuntu16.04
虚拟机和Ubuntu系统的安装可参见博客:VMware Ubuntu安装详细过程 - 小宝鸽 - 博客
搞定:
jdk和hadoop的压缩包我是先下好的: jdk版本:jdk1.8_161 hadoop版本:hadoop2.7.4
接着就是参考各种博客,再结合自己机器的实际情况做相应更改,过程如下(只截取重要部分): 在 /opt 下新建目录 /modules(mkdir),修改权限(chown)。用于存放与hadoop相关的文件; 解压jdk、hadoop压缩包(tar -zxvf 压缩包名)、重命名、删除压缩包、配置环境变量(/etc/profile)(编辑用gedit或者vim都可),配置完成之后保存; 然后执行source etc/profile或者重启虚拟机即可生效。
查看是否配置好: 在hdfs文件系统中创建目录,查看是否创建成功; 接着再把本地的input.txt上传到hdfs中,存在/test/input目录下 用hadoop自带的WordCount程序对input.txt文件进行单词计数,并查看结果:
过程中遇到的问题、收集到的好资源,记录于此,方便需要时查找:
ubuntu镜像文件下载:https://blog.csdn.net/kwame211/article/details/83902851 注意:如果是i386到i686,那就是32位系统;如果是x86_64 ,那就是64位。 1)登录Linux,在终端输入 cat /proc/version 2)登录Linux,在终端输入 uname -a 即列出Linux的内核版本号
Hadoop各版本下载地址:https://archive.apache.org/dist/hadoop/common/
参考的主要博客:Ubuntu16.04搭建hadoop伪分布式环境 - 成程晨 - 博客
putty远程登录Ubuntu时拒绝连接:是因为Ubuntu没装SSH服务:sudo apt-get install openssh-server 安装SSH:https://blog.csdn.net/b296405422/article/details/83420080
无法获得锁 /var/lib/dpkg/lock-frontend - open解决:https://blog.csdn.net/A_A666/article/details/106992187
sudo gedit出现No protocol specified解决方案:https://yuchi.blog.csdn.net/article/details/81907841
VMware安装VMware Tools:https://blog.csdn.net/zxf1242652895/article/details/78203473 安装VMware Tools后仍然不能实现文件拖拽:在安装目录下,默认是 /usr/bin 执行vmware-user start就可以了,也可以添加到启动项里,每次启动执行。
配置本机ssh免密登录报错 "sign_and_send_pubkey: signing failed: agent refused operation"解决方案:https://blog.csdn.net/changhenshui1990/article/details/75646069
"There are 0 datanode(s) running and no node(s) are excluded in this operation"解决方案:https://blog.csdn.net/poxiao58/article/details/52244611
最后,我再来回忆一遍整个过程:
Linux系统最好新建目录,专门存hadoop相关的文件(后面才不会混乱把jdk和hadoop放到该目录下,解压、重命名、配置环境变量(etc/profile,并令其生效(这里注意jdk和hadoop版本匹配的问题在hadoop-env.sh 、mapred-env.sh 、yarn-env.sh添加JAVA_HOME配置core-site.xml新建目录并改权限,这个目录就是配置core-site.xml时指定的hadoop临时目录配置hdfs-site.xml复制mapred-site.xml.template,命名为mapred-site.xml,并配置配置yarn-site.xml配置本机ssh免密登录格式化namenode开启节点和服务,再用jps查看测试