大数据集群搭建和使用之一——系统前期准备 - 好文

* 大数据架构总览 <https://blog.csdn.net/moquancsdn/article/details/81700064#大数据架构总览>
* 需要的安装包地址
<https://blog.csdn.net/moquancsdn/article/details/81700064#需要的安装包地址>
* 系统前期准备 <https://blog.csdn.net/moquancsdn/article/details/81700064#系统前期准备>
* 系统选用 <https://blog.csdn.net/moquancsdn/article/details/81700064#系统选用>
* 修改hostname，添加ip映射
<https://blog.csdn.net/moquancsdn/article/details/81700064#修改hostname添加ip映射>
* ssh免密码登录
<https://blog.csdn.net/moquancsdn/article/details/81700064#ssh免密码登录>
* 检查集群主机的时间是否一致
<https://blog.csdn.net/moquancsdn/article/details/81700064#检查集群主机的时间是否一致>
* 设置后续要使用的命令的快捷命令（别名）
<https://blog.csdn.net/moquancsdn/article/details/81700064#设置后续要使用的命令的快捷命令别名>
* 设置环境变量 <https://blog.csdn.net/moquancsdn/article/details/81700064#设置环境变量>
* 配置java <https://blog.csdn.net/moquancsdn/article/details/81700064#配置java>

这个系列指南使用真实集群搭建环境，不是伪集群，用了三台腾讯云服务器

或者访问我的个人博客站点，链接 <http://blog.leanote.com/moquan>

大数据架构总览

需要的安装包地址

* Hadoop:
http://www.apache.org/dyn/closer.cgi/hadoop/common
<http://www.apache.org/dyn/closer.cgi/hadoop/common>
* JDK:
http://www.oracle.com/technetwork/java/javase/downloads
<http://www.oracle.com/technetwork/java/javase/downloads>
* HBase
http://mirror.bit.edu.cn/apache/hbase/ <http://mirror.bit.edu.cn/apache/hbase/>
* Zookeeper
http://mirror.bit.edu.cn/apache/zookeeper/
<http://mirror.bit.edu.cn/apache/zookeeper/>
* Hive
http://mirror.bit.edu.cn/apache/hive/ <http://mirror.bit.edu.cn/apache/hive/>
* Kafka
http://kafka.apache.org/downloads <http://kafka.apache.org/downloads>
* Storm
http://storm.apache.org/downloads.html <http://storm.apache.org/downloads.html>
系统前期准备

系统选用

使用centos7，64位服务器，理论上讲64位的linux发行版都是可以的。

修改hostname，添加ip映射

* vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=master不同的主机不同的名称
* vim /etc/hostname,要么sudo hostname master，然后重启。
* vim /etc/cloud/templates/hosts.redhat.tmpl
例如添加一行： 172.16.xxx.xxx master 172.16.xxx.xxx slave1 172.16.xxx.xxx slave2
修改完记得ping一下
不要在127.0.0.1后面添加master或者slave，否则会出现hadoop集群启动成功但是live node为0的情况。

具体原因为：设置时在127.0.0.1后面添加了hadoop01，这样hadoop在启动的时候，根据配置文件监听的时候监听的是hadoop01的9000端口，而这个hadoop01被解析成了127.0.0.1，这样hadoop01节点就不会监听192.168.116.101的9000端口，来自hadoop02和hadoop03的信息不会被hadoop01节点接收到，也就会出现hadoop02和hadoop03节点日志里面的内容，live
node一直为0。
参考链接点这里 <https://blog.csdn.net/meoop/article/details/50806724>

ssh免密码登录

在每一台主机上生成ssh密钥
ssh-keygen -t rsa -P ''
生成的密钥在/root/.ssh/id_rsa.pub里，将所有主机上的密钥都放在/root/.ssh/authorized_keys
文件里，然后使用scp命令，将文件传输到另一个host上。scp -r /root/.ssh/authorized_keys
[email protected]:/root/.ssh
最终/root/.ssh/authorized_keys文件中的内容如下图

传输完成后使用ssh互相连接，以互相建立信任连接
master节点：
ssh slave1 ssh slave2
两个slave同理

检查集群主机的时间是否一致

设置后续要使用的命令的快捷命令（别名）

根据自己的版本信息设置快捷命令
这些内容是根据之后的系列指南逐步添加写成的。
#some more aliases alias cdhadoop='cd /opt/hadoop/hadoop2.8' alias cdhbase='cd
/opt/hbase/hbase1.2' alias cdhive='cd /opt/hive/hive1.2' alias cdzookeeper='cd
/opt/zookeeper/zookeeper3.4' alias hadoopfirststart=
'/opt/hadoop/hadoop2.8/bin/hdfs namenode -format' alias starthdfs=
'/opt/hadoop/hadoop2.8/sbin/start-dfs.sh' alias startyarn=
'/opt/hadoop/hadoop2.8/sbin/start-yarn.sh' alias stophdfs=
'/opt/hadoop/hadoop2.8/sbin/stop-dfs.sh' alias stopyarn=
'/opt/hadoop/hadoop2.8/sbin/stop-yarn.sh' alias starthbase=
'/opt/hbase/hbase1.2/bin/start-hbase.sh' alias stophbase=
'/opt/hbase/hbase1.2/bin/stop-hbase.sh' alias startzookeeper=
'/opt/zookeeper/zookeeper3.4/bin/zkServer.sh start' alias stopzookeeper=
'/opt/zookeeper/zookeeper3.4/bin/zkServer.sh stop' alias statuszookeeper=
'/opt/zookeeper/zookeeper3.4/bin/zkServer.sh status'
样例：

别忘了source ~/.bashrc

设置环境变量

vim /etc/profile
根据自己的版本来设置，注意：下面并没有给出storm和kafka的信息，因为这两个的版本还没敲定
#Java Config export JAVA_HOME=/opt/java/jdk1.8 export JRE_HOME=/opt/java/jdk1.8
/jreexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME
/lib# Zookeeper Config export ZK_HOME=/opt/zookeeper/zookeeper3.4 # HBase Config
export HBASE_HOME=/opt/hbase/hbase1.2 # Hadoop Config export
HADOOP_HOME=/opt/hadoop/hadoop2.8 export HADOOP_COMMON_LIB_NATIVE_DIR=
$HADOOP_HOME/lib/native export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME
/lib" # Hive Config export HIVE_HOME=/opt/hive/hive1.2 export HIVE_CONF_DIR=
${HIVE_HOME}/conf export PATH=.:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:
${HADOOP_HOME}/sbin:${ZK_HOME}/bin:${HBASE_HOME}/bin:${HIVE_HOME}/bin:$PATH
修改完记得source /etc/profile

配置java

按照/etc/profile文件里的目录路径配置java文件，如何安装java自行百度即可。
执行java -version检查java是否成功配置以及版本是否正确。

热门工具换一换