第一步 安装hadoop集群

* 1、安装jdk,当前为jdk8,jdk9、10、11由于会移除一些类,导致hadoop集群安装失败 安装细节不在赘述
* 2、hadoop的安装细节
* 注意的地方:Namenode和ResourceManger如果不是同一台机器,不能在NameNode上启动
yarn,应该在ResouceManager所在的机器上启动yarn。第二步 理解相关概念以及hadoop的模型
*
第三步 操作操作 *1、 直接在服务端操作使用hadoop命令做一些操作

给出一个文件上传到hdfs和下载到本地的example
# 1st 在本地新建一个文件 [root@node21 admin]# cat wc.txt a,1 b,1 b,5 a,3 c,3 d,15 e,11
a,2 d,2 # 2st 在hadoop上创建一个目录,用于存放该文件 [root@node21 admin] hadoop fs -mkdir -p
/user/input 可以看到hadoop的fs命令下,有很多和linux命令相似的地方,无聊可以help看哈 root@node21 admin]#
hadoop fs --help --help: Unknown command Usage: hadoop fs [generic options]
[-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum
<src> ...] [-chgrp [-R] GROUP PATH...] [-chmod [-R] <MODE[,MODE]... |
OCTALMODE> PATH...] [-chown [-R] [OWNER][:[GROUP]] PATH...] [-copyFromLocal
[-f] [-p] [-l] [-d] [-t <thread count>] <localsrc> ... <dst>] [-copyToLocal
[-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>] [-count [-q] [-h] [-v] [-t
[<storage type>]] [-u] [-x] [-e] <path> ...] [-cp [-f] [-p | -p[topax]] [-d]
<src> ... <dst>] [-createSnapshot <snapshotDir> [<snapshotName>]]
.................省略一堆堆 # 3st 上传到该目录 [root@node21 admin]hadoop fs -put ~/wc.txt
/user/input # 4st 查看是否已经存在该文件 [root@node21 admin]# hadoop fs -ls /user/input
-rw-r--r-- 2 admin supergroup 38 2019-03-30 08:41 /user/input/wc.txt #5st
ok接下来下载到本地并查看 [root@node21 admin]# hadoop fs -get /user/input/wc.txt /home/
admin/ hadoop/ xzg/ [root@node21 admin]# hadoop fs -get /user/input/wc.txt
/home/ [root@node21 admin]# ls /home/ wc.txt ### 就酱。
* 2、运行一个hadoop的简单事例,了解map-reduce机制 先给出命令,运行该命令是注意要使用hadoop用户,就是配置hadoop的用户
*
hadoop jar
/opt/hadoop3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar
wordcount /user/input/word.txt /user/output

上面hadoop jar
运行jar包,hadoop-mapreduce-examples-3.1.1.jar这个jar就是hadoop自己提供的,这里面有很多简单的例子(有兴趣可以解压或者官网或者到github查看相关源码),wordcount
就是其中一个。这里我们指定运行wordcount例子(用于计算单词数量) 输入路径:/user/input/word.txt
是要我们自己编写文件上传到hdfs的/user/input路径下。内容可参考
[admin@node21 ~]$ hadoop fs -cat /user/input/word.txt i love you
/user/output是我们指定输出的结果路径 执行结果如下(part-r-00000是默认结果生产的文件,可以hadoop fs -ls
/user/outpu查看):
[admin@node21 ~]$ hadoop fs -cat /user/output/part-r-00000 i 1 love 1 you 1
*

对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系
。从java和linux入手,其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识一一分享!


 

第四步 本地开发

我这里使用的idea,作为本地开发工具

* 1st
首先需要导入相关jar包,jar来源就是下载hadoop后解压后的share文件里(具体以个人,不过主要common、hdfs、mapreduce、yarn这几个包下的)
*


图片.png

* 2st 将hadoop服务端的配置文件,加入项目src目录下。项目启动时会使用到,否则会报错
*


图片.png

* 3st 开发前需要配置开发环境的hadoop的path
*


图片.png

windows本地运行mr程序时(不提交到yarn,运行在jvm靠线程执行),hadoop.dll防止报nativeio异常、winutils.exe没有的话报空指针异常。
所以我们需要额外添加这winutils.exe到你本地hadoop的bin目录下, (github下载地址)[
https://github.com/steveloughran/winutils]
<https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2Fsteveloughran%2Fwinutils%255D>
根据服务端及本地hadoop版本选择,不过我使用3.1的选择的3.0版本

* 4st 一个简单的测试连接服务端hdfs类
* public class Chapter3 { public static void main(String[] args) { try {
String filename = "hdfs://10.11.91.225:9000/user/input/data.txt"; Configuration
conf = new Configuration(); conf.set("fs.defaultFS",
"hdfs://10.11.91.225:9000"); // conf.set("mapreduce.jobtracker.address",
"10.11.91.255:9000"); // 这个解决hdfs问题 conf.set("fs.hdfs.impl",
org.apache.hadoop.hdfs.DistributedFileSystem.class.getName()); // 这个解决本地file问题
conf.set("fs.file.impl", org.apache.hadoop.fs.LocalFileSystem.class.getName());
FileSystem fs = FileSystem.get(conf); if(fs.exists(new Path(filename))) {
System.out.println("文件存在"); // fs. }else{ System.out.println("文件不存在"); } }
catch (Exception e) { e.printStackTrace(); } } }
上面代码本地开发环境和远程服务的连通测试

* 3st 编写一个任务,从本地开发环境丢到hadoop集群上运行(这是一个计算单词key,合并value的例子) 先写个文件丢到hdfs上
* [admin@node21 ~]$ hadoop fs -cat /user/input/wc.txt a,1 b,1 b,5 a,3 c,3
d,15 e,11 a,2 d,2
预期我们想要的结果如下:
a 6 b 6 c 3 d 17 e 11
代码实现,主要三个类

* WordCountMapper 类用于split和map阶段
* // //这个Mapper类是一个泛型类型,它有四个形参类型,分别指定map函数的输入键、输入值、输出键、输出值的类型 public class
WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
//该方法循环调用,从文件的split中读取每行调用一次,把该行所在的下标为key,该行的内容为value protected void
map(LongWritable key, Text value, Context context) throws IOException,
InterruptedException { String[] words = StringUtils.split(value.toString(), '
'); for(String w :words){ //a,1 a,2 重新组装a:1 a:2 String[] kevs = w.split(",");
context.write(new Text(kevs[0]), new IntWritable(Integer.valueOf(kevs[1]))); }
} }
* WordCountReducer类用于Shuffle和reduce阶段
* public class WordCountReducer extends Reducer<Text, IntWritable, Text,
IntWritable> { //每组调用一次,这一组数据特点:key相同,value可能有多个。 protected void reduce(Text
arg0, Iterable<IntWritable> arg1, Context arg2) throws IOException,
InterruptedException { //增加所有的值 int sum =0; for(IntWritable i: arg1){
sum=sum+i.get(); } arg2.write(arg0, new IntWritable(sum)); } }
* RunJob类为程序的入口和job的设置
* public class RunJob { public static void main(String[] args) {
Configuration config =new Configuration(); // config.set("fs.defaultFS",
"hdfs://HadoopMaster:9000"); config.set("fs.defaultFS",
"hdfs://10.11.91.225:9000"); //node22为hadoopyarn-site.xml中的配置
config.set("yarn.resourcemanager.hostname", "node22");
//设置执行的用户,需要是服务端的hadoop用户,否则无权限执行,报错.AccessControlException: Permission denied
System.setProperty("HADOOP_USER_NAME", "admin"); // config.set("mapred.jar",
"C:\\Users\\Administrator\\Desktop\\wc.jar");//先打包好wc.jar try { FileSystem fs
=FileSystem.get(config); Job job = Job.getInstance(config);
job.setJarByClass(RunJob.class); job.setJobName("wc");
job.setMapperClass(WordCountMapper.class);
job.setReducerClass(WordCountReducer.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
FileInputFormat.addInputPath(job, new
Path("/user/input/wc.txt"));//新建好输入路径,且数据源 Path outpath =new
Path("/user/output/wc"); if(fs.exists(outpath)){ fs.delete(outpath, true); }
FileOutputFormat.setOutputPath(job, outpath); boolean f=
job.waitForCompletion(true); if(f){ System.out.println("job任务执行成功"); } } catch
(Exception e) { e.printStackTrace(); } } }
注意:由于本地为windows下环境需要修改hadoop源码,否则会出现NativeIO$Windows.access错误 (hadoop源码)[
https://github.com/apache/hadoop]
<https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2Fapache%2Fhadoop%255D>
下载本地后修改如下文件

\hadoop-common-project\hadoop-common\src\main\java\org\apache\hadoop\io\nativeio\NativeIO.java


图片.png

修改后添加到本地,新建的包名要和hadoop的相同,这样本地执行引入的jar会优先加载该类。



图片.png

最后运行成功后,查看运行结果
[admin@node21 ~]$ hadoop fs -cat /user/output/wc/part-r-00000 a 6 b 6 c 3 d
17 e 11
和预期相同,很好 最后顺便贴出项目结构吧



图片.png

第五步 剩下的理解上面的代码,然后根据自己想法编写,已经理解hadoop运行原理和源码。好了,你已经算是入门了,哦 错了 应该是我

什么 源码? 那就上传到gayhub
<https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2Fxiongzhenggang%2Fbigdata>

友情链接
KaDraw流程图
API参考文档
OK工具箱
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:[email protected]
QQ群:637538335
关注微信