Hadoop中mapred包和mapreduce 打包包的区别与联系

机械键盘 | 冬奥会 | matlab | 扫地机器人 | 几何学 | 城市规划 | 易经 | 分子生物学 | 化学实验 | 历史故事 | instagram | 道教 | 戒指 | 细胞生物学 | 按键精灵 | EXO | 基因 | 产品设计 | 混凝土 | Adobe After Effects | 秦时明月之天行九歌 | 春节联欢晚会 | 九龙 | centos | 发型设计 | 脸型 | 滦州市 | 游戏原画 | solidworks | 赛事 | 网站建设 | 圣经 | 营销策划 | 孙悟空 | 百度输入法 | 数学建模 | 燕窝 | 虚拟机 | 管理软件 | PLC | 搜索引擎 | 虚拟专用服务器 | 日历 | 生活经历 | 周易 | 台风 | 吉利帝豪 | 鉴定 | CSS | 三菱商事 | 工业机器人 | 互联网资源 | safari | 鲜奶 | 武侠小说 | 潮牌 | 大白菜 | 脱毛 | 植保无人机 | 股票市场 | 3D Max | 香港购物 | snh48 | 酵素 | 草书 | 双色球 | 三国 | 海军 | 牙膏 | 敏感皮肤 | 狼牙山五壮士 | 几米 | 金雕 | 徐波 | 战斗机 | led | 微信群 | 加湿器 | 航拍 | 外貌 | 运载火箭 | 葡萄 | 内黄县 | 乾隆 | 图形处理器（gpu） | 世界杯 | 坦克世界（游戏） | 鸡蛋 | 机动车辆保险 | 生日 | 中华民国 | 蟑螂 | JSP | 电子书 | 兰蔻（lancome） | 信贷 | 粤语 | 住宅风水 | 外汇 | 互联网创业 | 郭德纲 | 产后护理 | 社会学 | 姓氏 | 中东 | 徽州区 | Adobe Illustrator | 画师 | 爬虫（计算机网络） | 战役 | 实习 | 项目管理 | 免费软件 | 瓷器 | Microsoft SQL Server | 遗传学 | Microsoft Visual Studio | 公路车 | 貂蝉 | 疤痕修复 | 米粉 | 中国中央电视台 | unity（游戏引擎） | 中国人 | 手绘 | 福利 | 索尼笔记本 | 奔驰(mercedes-benz) | 结构工程 | 奥特曼系列 | 阿富汗伊斯兰共和国 | 后宫·甄嬛传（书籍） | 文化差异 | 动物保护 | 古诗 | 男士护肤 | youtube | 3D | 快捷键 | onenote | 艺术家 | 牙齿美白 | 日语学习 | C#编程 | 精神病学 | 嵌入式系统 | 泉州市 | 红木艺术 | 湖南卫视 | 花千骨 | 初中数学 | 飞艇 | 赋 | amd | Legion | 隆鼻 | 暗恋 | 话剧 | 核桃 | 紫檀 | 自动化 | 科学 | 驴 | 户型 | 女性主义 | 进贤县 | 智商 | 日剧 | 医院推荐 | 酸奶 | 婴儿车 | 大城县 | 埇桥区 | gmail | 乐视超级电视 | 孔子 | 痛风 | 光绪皇帝 | QQ三国 | 汽车美容 | 双肩包 | 国产电视剧 | logo设计 | 开关电源 | 努比亚（手机品牌） | 赵一曼 | 八字 | 气候 | 一体机 | 玻璃 | stm32 | 虎牙直播 | 恩施土家族苗族自治州 | 空气质量 | 理发 | ansys | 外国人 | 祁县 | 新泰市 | 锤子科技 |

你的位置：网站首页 >> 频道首页 >>Hadoop >>Hadoop中mapred包和mapreduce 打包包的区别与联系

Hadoop中mapred包和mapreduce 打包包的区别与联系

来源：蜘蛛抓取(WebSpider) 时间：2017-10-04 02:14 标签： mapreduce原理

Hadoop MapReduce程序中解决第三方jar包问题_服务器应用_Linux公社-Linux系统门户网站
你好，游客
Hadoop MapReduce程序中解决第三方jar包问题
来源：Linux社区&
作者：lazythinker
MapReduce程序中解决第三方jar包问题--终极解决方案。
在项目中碰到了MapReduce任务中需要引入第三方jar包的问题；
报一堆类似异常【Error: java.lang.ClassNotFoundException:***】。
二、解决方案
随手一搜网上倒是不少解决方案，我选择两个典型方案，其它方案自行查找：
(1) 将依赖的第三方jar放在集群中每个节点$HADOOP_HOME/lib目录下或者JDK的ext目录下，其中$HAOOP_HOME为Hadoop的根目录。
(2) 将所有的jar包解压缩，然后把他和源程序的类文件打包到一个jar包中。
第一种基本满足我的要求，可以一试，第二种方法不易于维护舍弃。
1、把依赖的jar包放入集群中每个节点$HADOOP_HOME/lib目录下；
2、重新执行job，依然报错，崩溃。。。，难道要重启hadoop集群？以后要是任务多了更改一些公用jar还要重启接受不了；
3、查看hadoop，发现确实是加载了lib中的jar包，如下所示：
# add libs to CLASSPATH
for f in $HADOOP_HOME/lib/*. do
CLASSPATH=${CLASSPATH}:$f;
4、可能是自己愚笨或者环境问题，反正继续查找原因未果，放弃；
四、重新查找解决方案
1、一个不错的解决方案：
2、英文地址：http://www.blowide.com/2010/04/including-external-jars-in-a-hadoop-job/
3、可问题来了，里面描述的lib目录建在哪里？执行时到底怎么调用的呀？
4、记得《Hadoop权威指南》中好像也有关于jar打包的处理措施，查找之
【任何非独立的JAR文件都必须打包到JAR文件的lib目录中。（这与Java的web application archive或WAR文件类似，不同的是，后者的JAR文件放在WEB-INF/lib子目录下的WAR文件中）】，天哪，看书不仔细就会遗留重要问题，网上的都是浮云呀。打包的时候把第三方包放到lib目录下和class文件一块打包即可。
5、按要求重新打包，执行，OK了。
相关资讯 & & &
& (03/11/:48)
& (01/30/:17)
& (05/16/:27)
& (02/17/:43)
& (12/16/:47)
　　　同意评论声明
　　　发表
尊重网上道德，遵守中华人民共和国的各项有关法律法规
承担一切因您的行为而直接或间接导致的民事或刑事法律责任
本站管理人员有权保留或删除其管辖留言中的任意内容
本站有权在网站内转载或引用您的评论
参与本评论即表明您已经阅读并接受上述条款
王伟发表于你好，看到您的文章收获很多，现在我有用个第三方的问题，不知道是怎么回事，一直解决不了，qq：，你可以加我qq给我指点一下吗，谢谢。| java | web
Hadoop中mapred包和mapreduce包的区别(转)
原文章链接：
今天写了段代码突然发现，很多类在mapred和mapreduce中分别都有定义，下面是小菜写的一段代码：
class MyJob extends Configured implements Tool
public static class MapClass extends MapReduceBase implements Mapper&Text, Text, Text, Text&
public void map(Text key, Text value, OutputCollector&Text, Text& output, Reporter reporter) throws IOException
output.collect(value, key);
public static class Reduce extends MapReduceBase implements Reducer&Text, Text, Text, Text&
&span style="white-space:pre"& &/span&@Override
public void reduce(Text key, Iterator&Text& values, OutputCollector&Text, Text& output, Reporter reporter)
throws IOException
String csv = "";
while (values.hasNext())
csv += csv.length() & 0 ? "," : "";
csv += values.next().toString();
output.collect(key, new Text(csv));
public int run(String[] args) throws Exception
Configuration conf = getConf();
job = new JobConf(conf, MyJob.class); //JobConf job = new JobConf(conf, MyJob.class);
Path in = new Path(args[0]);
Path out = new Path(args[1]);
FileInputFormat.setInputPaths(job, in);
FileOutputFormat.setOutputPath(job, out);
job.setJobName("MyJob");
job.setMapperClass(MapClass.class);
job.setReducerClass(Reduce.class);
job.setInputFormat(KeyValueTextInputFormat.class);
job.setOutputFormat(TextOutputFormat.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);
job.set("key.value.separator.in.input.line", ",");
JobClient.runJob(job);
public static void main(String[] args) throws Exception
// TODO Auto-generated method stub
int res = ToolRunner.run(new Configuration(), new MyJob(), args);
System.exit(res);
主要看run方法：
上面代码中的Jobconf无可厚非，只有在mapred包中有定义，这个没问题。
但是FileInputFormat和FileOutputFormat在mapred和mapreduce中都有定义，刚开始脑海里对这些都没有概念，就引用了mapreduce中的FileInputFormat和FIleOutputFormat。
这样操作就带来了后面的问题
FileInputFormat.setInputPaths(job, in);
FileOutputFormat.setOutputPath(job, out);
这两条语句不能通过编译，为什么呢，因为FileInputFormat.setInputPaths和FileOutputFormat.setOutputPath的第一个参数都是Job，而不是JobConf，找了很多资料，由于对hadoop了解少，所以找资料没有方向感，这也是学习新东西效率低下的原因，如果有哪位大牛，知道怎么克服效率低下的问题，请不吝赐教！
后来，无意中，看到mapred包中也有这两个类的定义，于是火箭速度修改为mapred下的包，OK，顺利通过编译！
下面还有 job.setOutputFormat(TextOutputFormat.class);语句编译不同通过，提示参数需要扩展。。。的参数；于是小菜也去mapred下面查找是否存在此类，正如期望，也存在此类，当即立段，修改为此包下的类，顺利编译通过，此时，颇有成就感！
可是现在小菜发现，mapred包下和mapreduce包下同时都存在又相应的类，不知道是为什么，那么下面就有目标的请教搜索引擎啦，呵呵，比刚才有很大进步。
结果令小菜很失望，就找到了一个符合理想的帖子。但是通过这个帖子，小菜知道了，mapred代表的是hadoop旧API，而mapreduce代表的是hadoop新的API。
OK，小菜在google输入框中输入“hadoop新旧API的区别”，结果很多。看了之后，又结合权威指南归结如下：
首先第一条，也是小菜今天碰到这些问题的原因，新旧API不兼容。所以，以前用旧API写的hadoop程序，如果旧API不可用之后需要重写，也就是上面我的程序需要重写，如果旧API不能用的话，如果真不能用，这个有点儿小遗憾！新的API倾向于使用抽象类，而不是接口，使用抽象类更容易扩展。例如，我们可以向一个抽象类中添加一个方法(用默认的实现)而不用修改类之前的实现方法。因此，在新的API中，Mapper和Reducer是抽象类。新的API广泛使用context
object(上下文对象)，并允许用户代码与MapReduce系统进行通信。例如，在新的API中，MapContext基本上充当着JobConf的OutputCollector和Reporter的角色。新的API同时支持"推"和"拉"式的迭代。在这两个新老API中，键/值记录对被推mapper中，但除此之外，新的API允许把记录从map()方法中拉出，这也适用于reducer。分批处理记录是应用"拉"式的一个例子。新的API统一了配置。旧的API有一个特殊的JobConf对象用于作业配置，这是一个对于Hadoop通常的Configuration对象的扩展。在新的API中，这种区别没有了，所以作业配置通过Configuration来完成。作业控制的执行由Job类来负责，而不是JobClient，并且JobConf和JobClient在新的API中已经荡然无存。这就是上面提到的，为什么只有在mapred中才有Jobconf的原因。输出文件的命名也略有不同，map的输出命名为part-m-nnnnn，而reduce的输出命名为part-r-nnnnn，这里nnnnn指的是从0开始的部分编号。
这样了解了二者的区别就可以通过程序的引用包来判别新旧API编写的程序了。小菜建议最好用新的API编写hadoop程序，以防旧的API被抛弃！！！
小菜水平有限，如果哪位大牛看到文中的不足和错误，请指正，小菜会尽快更改文中错误，好让其他入门者不走我的弯路！
没有更多推荐了，总体上看，Hadoop MapReduce分为两部分：一部分是org.apache.hadoop.mapred.*，这里面主要包含旧的API接口以及MapReduce各个服务(JobTracker以及TaskTracker)的实现；另一部分是org.apache.hadoop.mapreduce.*,主要内容涉及新版本的API接口以及一些新特性(比如MapReduce安全)。hadoop版本1.x的包一般是mapreduce&* hadoop版本0.x的包一般是mapred。
虽然hadoop 1.2.1源码的src文件夹下只有mapred文件夹而没有mapreduce，其实mapred文件夹是同时包含了mapred的旧API和mapreduce的新API的。如图所示：
&可以在这里阅读源码。
1.&&& 首先第一条，也是小菜今天碰到这些问题的原因，新旧API不兼容。所以，以前用旧API写的hadoop程序，如果旧API不可用之后需要重写，也就是上面我的程序需要重写，如果旧API不能用的话，如果真不能用，这个有点儿小遗憾！
2.&&& 新的API倾向于使用抽象类，而不是接口，使用抽象类更容易扩展。例如，我们可以向一个抽象类中添加一个方法(用默认的实现)而不用修改类之前的实现方法。因此，在新的API中，Mapper和Reducer是抽象类。
3.&&& 新的API广泛使用context object(上下文对象)，并允许用户代码与MapReduce系统进行通信。例如，在新的API中，MapContext基本上充当着JobConf的OutputCollector和Reporter的角色。
4.&&& 新的API同时支持"推"和"拉"式的迭代。在这两个新老API中，键/值记录对被推mapper中，但除此之外，新的API允许把记录从map()方法中拉出，这也适用于reducer。分批处理记录是应用"拉"式的一个例子。
5.&&& 新的API统一了配置。旧的API有一个特殊的JobConf对象用于作业配置，这是一个对于Hadoop通常的Configuration对象的扩展。在新的API中，这种区别没有了，所以作业配置通过Configuration来完成。作业控制的执行由Job类来负责，而不是JobClient，并且JobConf和JobClient在新的API中已经荡然无存。这就是上面提到的，为什么只有在mapred中才有Jobconf的原因。
6.&& 输出文件的命名也略有不同，map的输出命名为part-m-nnnnn，而reduce的输出命名为part-r-nnnnn，这里nnnnn指的是从0开始的部分编号。
这样了解了二者的区别就可以通过程序的引用包来判别新旧API编写的程序了。小菜建议最好用新的API编写hadoop程序，以防旧的API被抛弃！！！
新版API仍然会使用org.apache.hadoop.mapred中的一些类(可以这样理解，与org.apache.hadoop.mapred中的类相比，如果org.apache.hadoop.mapreduce中没有实现相关类，就说明新版API仍然使用这些类，如果实现了的，就会覆盖掉org.apache.hadoop.mapred中的相关类)。
以MapTask说明：
MapTask负责调度执行map操作，其中有个方法run(),在这个方法的内部，有段代码如下：
boolean useNewApi = job.getUseNewMapper();//是否使用新版API，true表示使用了新版API
initialize(job, getJobID(), reporter, useNewApi);
// check if it is a cleanupJobTask
if (jobCleanup) {
runJobCleanupTask(umbilical, reporter);
if (jobSetup) {
runJobSetupTask(umbilical, reporter);
if (taskCleanup) {
runTaskCleanupTask(umbilical, reporter);
if (useNewApi) {
//使用了新版API就调用新方法
runNewMapper(job, splitMetaInfo, umbilical, reporter);
runOldMapper(job, splitMetaInfo, umbilical, reporter);
阅读(...) 评论()hadoop中mapred和mapreduce包的区别
今天写了段代码突然发现，很多类在mapred和mapreduce中分别都有定义，下面是小菜写的一段代码：
public class MyJob extends Configured implements Tool
public static class MapClass extends MapReduceBase implements Mapper&Text, Text, Text, Text&
public void map(Text key, Text value, OutputCollector&Text, Text& output, Reporter reporter) throws IOException
output.collect(value, key);
public static class Reduce extends MapReduceBase implements Reducer&Text, Text, Text, Text&
public void reduce(Text key, Iterator&Text& values, OutputCollector&Text, Text& output, Reporter reporter) throws IOException
String csv = "";
while (values.hasNext())
csv += csv.length() & 0 ? "," : "";
csv += values.next().toString();
output.collect(key, new Text(csv));
public int run(String[] args) throws Exception
Configuration conf = getConf();JobConf job = new JobConf(conf, MyJob.class); //JobConf job = new JobConf(conf, MyJob.class);
Path in = new Path(args[0]);
Path out = new Path(args[1]);
FileInputFormat.setInputPaths(job, in);
FileOutputFormat.setOutputPath(job, out);
job.setJobName("MyJob");
job.setMapperClass(MapClass.class);
job.setReducerClass(Reduce.class);
job.setInputFormat(KeyValueTextInputFormat.class);
job.setOutputFormat(TextOutputFormat.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);
job.set("key.value.separator.in.input.line", ",");
JobClient.runJob(job);
public static void main(String[] args) throws Exception
// TODO Auto-generated method stub
int res = ToolRunner.run(new Configuration(), new MyJob(), args);
System.exit(res);
主要看run方法：
上面代码中的Jobconf无可厚非，只有在mapred包中有定义，这个没问题。
但是FileInputFormat和FileOutputFormat在mapred和mapreduce中都有定义，刚开始脑海里对这些都没有概念，就引用了mapreduce中的FileInputFormat和FIleOutputFormat。
这样操作就带来了后面的问题
FileInputFormat.setInputPaths(job, in);
FileOutputFormat.setOutputPath(job, out);
这两条语句不能通过编译，为什么呢，因为FileInputFormat.setInputPaths和FileOutputFormat.setOutputPath的第一个参数都是Job，而不是JobConf，找了很多资料，由于对hadoop了解少，所以找资料没有方向感，这也是学习新东西效率低下的原因，如果有哪位大牛，知道怎么克服效率低下的问题，请不吝赐教！
后来，无意中，看到mapred包中也有这两个类的定义，于是火箭速度修改为mapred下的包，OK，顺利通过编译！
下面还有 job.setOutputFormat(TextOutputFormat.class);语句编译不同通过，提示参数需要扩展。。。的参数；于是小菜也去mapred下面查找是否存在此类，正如期望，也存在此类，当即立段，修改为此包下的类，顺利编译通过，此时，颇有成就感！
可是现在小菜发现，mapred包下和mapreduce包下同时都存在又相应的类，不知道是为什么，那么下面就有目标的请教搜索引擎啦，呵呵，比刚才有很大进步。
结果令小菜很失望，就找到了一个符合理想的帖子。但是通过这个帖子，小菜知道了，mapred代表的是hadoop旧API，而mapreduce代表的是hadoop新的API。
OK，小菜在google输入框中输入“hadoop新旧API的区别”，结果很多。看了之后，又结合权威指南归结如下：
1. 首先第一条，也是小菜今天碰到这些问题的原因，新旧API不兼容。所以，以前用旧API写的hadoop程序，如果旧API不可用之后需要重写，也就是上面我的程序需要重写，如果旧API不能用的话，如果真不能用，这个有点儿小遗憾！
2. 新的API倾向于使用抽象类，而不是接口，使用抽象类更容易扩展。例如，我们可以向一个抽象类中添加一个方法(用默认的实现)而不用修改类之前的实现方法。因此，在新的API中，Mapper和Reducer是抽象类。
3. 新的API广泛使用context object(上下文对象)，并允许用户代码与MapReduce系统进行通信。例如，在新的API中，MapContext基本上充当着JobConf的OutputCollector和Reporter的角色。
4. 新的API同时支持"推"和"拉"式的迭代。在这两个新老API中，键/值记录对被推mapper中，但除此之外，新的API允许把记录从map()方法中拉出，这也适用于reducer。分批处理记录是应用"拉"式的一个例子。
5. 新的API统一了配置。旧的API有一个特殊的JobConf对象用于作业配置，这是一个对于Hadoop通常的Configuration对象的扩展。在新的API中，这种区别没有了，所以作业配置通过Configuration来完成。作业控制的执行由Job类来负责，而不是JobClient，并且JobConf和JobClient在新的API中已经荡然无存。这就是上面提到的，为什么只有在mapred中才有Jobconf的原因。
6. 输出文件的命名也略有不同，map的输出命名为part-m-nnnnn，而reduce的输出命名为part-r-nnnnn，这里nnnnn指的是从0开始的部分编号。
这样了解了二者的区别就可以通过程序的引用包来判别新旧API编写的程序了。小菜建议最好用新的API编写hadoop程序，以防旧的API被抛弃！！！
小菜水平有限，如果哪位大牛看到文中的不足和错误，请指正，小菜会尽快更改文中错误，好让其他入门者不走我的弯路！
没有更多推荐了，Hadoop中mapred包和mapreduce包的区别与联系_百度知道
Hadoop中mapred包和mapreduce包的区别与联系
我有更好的答案
新旧的区别，mapred包封装的不好，所以就是用mapreduce来代替mapred包了，不过只是一些面向开发者的接口被重新封装了，很多内部的类还是使用的mapred
采纳率：77%
来自团队：
为您推荐：
其他类似问题
换一换
回答问题，赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。

Hadoop中mapred包和mapreduce 打包包的区别与联系

我要回帖

更多关于 mapreduce原理的文章

随机推荐

Hadoop中mapred包和mapreduce 打包包的区别与联系

我要回帖

更多关于 mapreduce原理 的文章

随机推荐

更多关于 mapreduce原理的文章