本篇亦为学习hadoop----java零基础学习线路指导(3)第三篇,想学习hadoop,没有Java基础,可以查看下面两节内容:
学习hadoop----java零基础学习线路指导视频(1)
学习hadoop---Java初级快读入门指导(2)
本文为操作指导
1.如何引用外部包?
2.使用插件开发端口如何设置?
如果你已经比较熟悉了,可以思考:
1.hadoop脱离集群开发,加入外部包的作用是什么?
2.Hadoop eclipse plugin的作用是什么,自己能否设计一个Hadoop eclipse plugin,该如何开发和设计?
在我们的传统开发中,一般都是有一定的开发工具。比如.net,直接使用visual Studio开发环境,开发程序直接运行,剩下的事情不用管了。
但是Java开发,我们知道最起码可以分为两种常用的开发。
其实其他的语言也可以使用这两种语言,但是Java的这两种方式,用的人更多一些。
这里讲Java开发方式,
一种是采用命令行编译: javac test.java
一种开发工具编译:用eclipse 等开发工具,直接右键run as -->java Application如果不了解可以查看
学习hadoop---Java初级快读入门指导
那么对于hadoop也有两种方式:
一、一种是脱离集群环境的开发:
那么什么是脱离集群环境开发,因为集群也是有一个Java环境的。如果我们编写程序,脱离了集群,那么就是脱离集群开发。可能说到这里,大家还是有点不太明白。
好吧,现在开始上图。
1.添加外部包
当我们建立一个普通Java项目之后,我们单击HDFS-》属性。会弹出右侧属性窗口,属性窗口弹出之后,我们找到Java Build Path,(这时候libraries是空的),我们单击Add External JARs.后面图中没有显示。Add External JARs的意思是添加外部包,什么是外部包,hadoop是由Java程序开发的,所以它会相应的Java包,我们添加的就是这些个相关的包。
图1
2.那么我们选择的是与集群相应的hadoop包。
(1)hadoop文件夹下面的包
这个包的内容,以开发hdfs为例,首先我们解压hadoop包,会形成一个文件夹,这里我们称之为hadoop文件夹。我们找到这个文件夹之后,下面有相应的包,如下图2:
图2
(2)lib文件夹的包
还有一些依赖包如下图3,打开下面lib文件夹,会看到.jar文件,把里面的包都引用进来。
都引用完毕之后,我们会在图1中会看到很多的jar包,这时候,我们就引用成功了。
图3
3.引用成功
当我们单击图1,ok按钮时,我们就会看到项目出现了外部包如图4所示。
图4
总结:
上面因为我们是新手,所以引用了这些包,引用这些包的目的是利于开发。如果不引用这些,对于高手,照样可以开发。这里,你可能还是不太明白,这里建议同学先这样做,等时间长了,自己就会琢磨过来的。
上面准备完毕,我们就可以开发了。开发完毕,我们所做的是必须必须打个Jar包,然后再用上面的命令提交到Hadoop Cluster上去运行
注意的这种开发方式运行采用的是:run as java application
有的同学在使用上面开发方式的时候遇到了问题,这里补充一下:windows eclipse运行mapreduce遇到权限问题该如何解决
二、一种远程连接集群开发:
目前比较方便的方法就是用Hadoop eclipse plugin,可以浏览管理HDFS,自动创建MR程序的模板文件,最爽的就是直接Run on hadoop了。
那么这个该如何配置:
这里引用:
下面帖子
hadoop开发方式之一:利用插件开发指导
引言
在开发调试过程中,需要将程序打包,运行任务后通过命令或web界面查看运行输出及job运行情况,这个比较繁琐,下面介绍的eclipse插件可以简化这个过程,方便调试。
插件安装
Hadoop的eclipse plugin跟hadoop发行版一起分发,到hadoop安装目录\ contrib\eclipse-plugin下可以找到该插件。在试用过程中发现不支持eclipse 3.5,因此要在eclipse3.5及以上版本运行,需要做个修改。修改方法如下:
编辑:src\contrib\eclipse-plugin\src\java\org\apache\hadoop\eclipse\launch\
HadoopApplicationLaunchShortcut.java
做如下修改:
修改完毕后在hadoop目录执行ant package重新打包eclipse插件。
将修改后的插件拷贝到eclipse\dropins\hadoop\plugins目录下完成安装。
插件配置与使用
指定Hadoop安装目录
打开Map/Reduce视图
”Window”->”Open Perspective”->”Other”->“Map/Reduce”.
“Window”->”Show views”->”Other”->”Map Reduce Tools”->”Map/Reduce locations”.
新建 Hadoop location
DFS视图浏览文件
运行MapReduce作业
查看运行结果
上面这种方式,是直接远程连接集群的开发。
注意的这种开发方式运行采用的是:run on haoop
三、总结
对于上面两种方式,新手可能第一种感觉更适应,因为不需要懂得hadoop的相关配置,只需要引用外部包就可以了。但是面对生产环境,这是非常繁琐的。刚开始,同学们可以选择自己喜欢的方式。或则两种方式都可以尝试一下。
http://www.aboutyun.com/thread-6950-1-1.html
相关推荐
Hadoop 学习总结
此文档在hadoop集群搭建完毕之后,在集群之外搭建一个hadoop集群的开发环境,用于编写hadoop实际处理程序,还包括了如何提交任务等。整体非常详细,如需要其他hadoop集群搭建资源可以联系我,免费给q:1487954071
《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf...
│ └── Hadoop基础 -01简介及架构.ppt ├── 第2章 │ ├── 1. 安装配置虚拟机.ppt │ ├── 2. 安装Java.ppt │ └── 3. 搭建Hadoop完全分布式集群.ppt ├── 第3章 │ └── Hadoop基础操作.ppt ├──...
Hadoop学习总结,内容包括: 1. HDFS简洁 2. HDFS读写过程解析 3. MapReduce入门 4. MapReduce过程解析 5. Hadoop运行痕迹 6. MapReduce源码分析总结
包括初识Hadoop、Hadoop基础知识、Hadoop开发环境配置与搭建、Hadoop分布式文件系统、Hadoop的I/O操作、MapReduce编程基础、MapReduce高级编程、初识HBase、初识Hive。通过本书的学习,读者可以较全面地了解Hadoop的...
本书为Hadoop开发指南(第四版)_ORelly出版,可供广大大数据工程师开发参阅与指导
大数据Hadoop开发工程师简历模板
【大数据入门笔记系列】第五节 SpringBoot集成hadoop开发环境(复杂版的WordCount)前言环境清单创建SpringBoot项目创建包创建yml添加集群主机名映射hadoop配置文件环境变量HADOOP_HOME编写代码添加hadoop依赖jar包...
hadoop应用开发实例教程-基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析,课程实战、实用、实际,总共96课时,系史上最全最深入的讲解Greenplum、Hadoop、云计算相关领域的技能课程,北风网仅...
熟悉常用的Linux操作和Hadoop操作
hadoop 开发工作的基础讲义,介绍了Hadoop基本开发技术
hadoop源码阅读总结
第一天 hadoop的基本概念 伪分布式hadoop集群安装 hdfs mapreduce 演示 01-hadoop职位需求状况.avi 02-hadoop课程安排.avi 03-hadoop应用场景.avi 04-hadoop对海量数据处理的解决思路.avi 05-hadoop版本选择和...
内含基于hadoop集群的java开发教程的链接。因内容太大,只能存放链接一条。其中包括hadoop开发所使用的jar包,安装包。和开发教学视频。
Hadoop开发者-第一期
Hadoop 简介 Hadoop 优点 Hadoop基本架构
Hadoop大数据开发课程
Hadoop Eclipse是Hadoop开发环境的插件,用户在创建Hadoop程序时,Eclipse插件会自动导入Hadoop编程接口的jar文件,这样用户就可以在Eclipse插件的图形界面中进行编码、调试和运行Hadop程序,也能通过Eclipse插件...