Hadoop是什么大学有没有环保专业比较专业的?

给自己一个定位,给自己一个目标,前进前进!
hadoop主要类介绍-开始篇
InputFormat:将输入的数据分割成split,并将split拆分成&k,v&作为map输入。Job.setInputFormatClass()设置,TextInputFormat将文本按行分割成split,LineRecorderReader将每行解析为&k,v&
Mapper:实现map函数,将输入的&k,v&生成中间结果,通过job.setMapperClass()设置。
Combiner:实现combine函数,合并中间具有相同key的键值对,通过job.setCombinerClass()设置。
Partitioner:实现getPartition函数,用于在Shuffle过程中按照key将中间数据分为R份,每份由一个Reducer负责。通过job.setPartitionerClass()设置, 默认使用HashPartitioner类,使用哈希完成Shuffle过程。
Reducer:实现reduce函数,将中间结果合并,得到最终结果。通过job.setReduceClass()设置。
OutputFormat:负责输出最终结果。通过job.setOutputFormatClass()设置,默认使用TextOutputFormat将最终结果以文本输出。
Hadoop有四大核心模块:
常用工具类报
YARN作业调度+资源管理平台
MAPReduce 数据处理
HDFS 核心组件
管理文件系统的命名空间,维护文件系统树,保存着所有文件信息
这些信息通过fsimage和edits文件被持久到磁盘中。
Datanode文件系统中真正存储数据的地方
接口客户端或元数据信息(namenode)写入或者读取数据块请求
Secondarynamenode:不是namenode节点,是namenode出现问题的备用节点
其负责定期合并namenode产生的fsimage和edits文件,防止日志文件过大。
通常不和namenode在一个节点上,合并操作占用CPUD大量时间,会影响namenode正常工作。
备注:Hadoop下载节点
NameNode是HDFS的守护程序,负责记录文件是如何分割成数据块,以及这些数据块分别存在哪些数据节点上。主要对内存及I/O进行管理。由于其在集群中一个单点,如果NameNode宕机,整个系统无法运行。
DataNode集群中每个从服务器都有一个DataNode后台程序,负责吧HDFS数据块读写到本地文件系统。读写时,先由NameNode告诉去哪个DataNode进行具体读写
Secondary NameNode用来监控HDFS状态的辅助后台程序。每个集群中只有一个。定期保存NameNode的快照,可将NameNode的宕机损失降到最低,同时作为备用NN使用。
Yarn源于MapReduce框架不足,将原有的JobTracker主要的资源管理和job调度/监控分成两个单独守护进程ResourceManager和每个Application有一个ApplicationMaster。RM和NM组成了基本的数据计算框架。RM协调集群的资源利用,需要向其申请资源。NM主要负责启动RM分配给AM的container,并监视器运行情况。
没有更多推荐了,OpenStack 和 Hadoop 的区别是什么? - 知乎有问题,上知乎。知乎作为中文互联网最大的知识分享平台,以「知识连接一切」为愿景,致力于构建一个人人都可以便捷接入的知识分享网络,让人们便捷地与世界分享知识、经验和见解,发现更大的世界。683被浏览<strong class="NumberBoard-itemValue" title="4,106分享邀请回答14010 条评论分享收藏感谢收起552 条评论分享收藏感谢收起转载请注明作者与出处
作者:martin_li
网址:http://my.oschina.net/Senger/blog/180140
以前只用过Hive与impala两个类SQL查询系统,最近又将Hortonworks开源的Stinger与Apache的Drill做了些调研。累死累活搞了一天的资料,头都大了。为了纪念我那逝去的脑细胞,特将这些信息整理出来。
由于调查时间比较短(一天的时间都头晕眼花了,再长点估计我就要过劳死了),所写之处难免会有差错,欢迎大家指正
总体来说虽然impala、stinger、drill三个系统都是类SQL实时查询系统,但是它们的侧重点完全不同。而且它们也不是为了替换Hive而生,hive在做数据仓库时还是很有价值的。
目前来说只有impala比较成熟(人家标称要使用CDH版本hadoop,如果要使用apache的,要做好测试的心里准备)。
其它两个系统还都处理孵化状态,但是前景非常不错。
这个系统是Cloudera开源的,时间大约是在12年下半年。虽然到现在才一年的时间但是已经有很多人在使用。社区也比较活跃,大家可以在github上面看到项目的开发人员与代码提交情况(地址:)。个人感觉开发者虽然有其它几个公司,但是还是以cloudera为主。这样也造就了impala开发的比较快速,虽然到现在才一年左右的时间,但是impala已经可以很稳定的运行。
impala主要是为hdfs与hbase数据提供实时SQL查询。它是根据google的dremel论文实现的一套分布式系统,自用户提交的SQL开始都是基于自身的分析器与执行器。下图是其架构图
(图片来源自impala安装使用说明书)
由 于完全脱离了M/R技术,自身根据HDFS的文件分布来调整计算,所以速度较Hive有很大提升。根据我个人使用部分TPC基准测(为什么是部分?没理 由,我只选了一部分SQL来跑),impala虽然性能提升不像Cloudera标称的达到hive的一百倍,但是在比较复杂的情况下达到40-70倍性 能提高还是有的。
就日常使用来说,标称是支持大部分SQL-92标准(我也不清楚这个标准到底有多少,专业的童鞋给点解读呗!!)。根据我 是测试,日常用的SQL都没有问题。并且impala支持JDBC与ODBC的连接,这对于我们的使用也是很必要的,基于此特点我们可以开发对应业务系统 的UI部分,从而不用要求业务人员自己下SQL了(这是为数不多的展现工作成果的时候了)。
其次就是impala支持的文件格式,我们存取 数据的时候肯定要应景的选择压缩与否以及文件的存储格式。impala支持常用的Text、Sequence、avro格式,压缩方面支持Snappy、 bzip、gzip以及deflate压缩应该可以满足我们大部分的使用场景了。
而最棒的是它的UDF功能可以直接使用hive的udf库,而不需要修改任何代码,使用hive的童鞋可以庆祝了,很多任务不需要任何改变即可平滑切换impala。不过因为impala使用的是C开发的,所以impala还是鼓励大家写一个c下面的udf来提高性能。
开源时间跟impala差不多,只不过属于Apache,。这个系统的目标很宏大--抽象所有数据源,做成统一接口。底层支持hbase、mongoDB、HDFS、Cassandra等数据源。
它的数据接口都是插件化,理论上支持各种查询语言,SQL自然也不例外,不过目前这个系统还是Apache的一个孵化项目,很多功能尚未完成与稳定。但是可以预见,这个系统如果完成是很有影响力的。下图为drill的架构图。
(图片来源)
Hortonworks开源的一个实时类SQL查询系统,也是声称可以提升较hive 100倍的速度(悲崔的hive,都拿它来当反面教材)。目前处于其计划中三个阶段的最后一个阶段。
综合来看Hortonwork做的事是在hive等分析系统的现有基上加了一个优化层,所有的事都要经过它的优化层Tez(此框架是基于Yarn)来处理,以减少不必要的工作以及资源开销。虽然它也对HIVE进行了很多的优化与加强,但是这个效果就要看子系统Tez的表现的了。Tez目前也是apache的孵化项目,Stringer如果要稳定可以商用依然还有很多路要走。
从下面的示意图大家可以了解Tez所处的位置。
(图片来源:)
& 著作权归作者所有
人打赏支持
码字总数 3870
高级程序员
引用来自“martin_li”的评论引用来自“zhutoulwz”的评论您好,我想请问下您哪里可以找到这些开源SQL查询框架的详细资料呢?最近在学习这些,请您指导下详细的资料只有官网上面比较详细,其它地方都是别人吸收后的信息,SO...好的,谢谢您
引用来自“zhutoulwz”的评论您好,我想请问下您哪里可以找到这些开源SQL查询框架的详细资料呢?最近在学习这些,请您指导下详细的资料只有官网上面比较详细,其它地方都是别人吸收后的信息,SO...
您好,我想请问下您哪里可以找到这些开源SQL查询框架的详细资料呢?最近在学习这些,请您指导下
引用来自“吐槽的达达仔”的评论引用来自“martin_li”的评论引用来自“吐槽的达达仔”的评论这些资料很多地方都有。。楼主的辛苦收集的材料实在略显单薄。。SQL on Hadoop的项目还有 Apache的项目tajo,Facebook的Presto等等。。甚至连Stinger的实现原理都没去解释,只是贴个图片。。tajo是第一次听说,多谢兄台相告。Presto据说稳定性有问题,再时间只是整理了一天,所以就没管这个东西。不知兄台对于这两个项目有没有一些资料推荐下呢?Stinger我个人感觉,其所有功能都基于Tez这个模块,实在可讲的东西不多。兄台对于Stinger有何见解,欢迎指教目前确实有需求要做低延迟的SQL on Hadoop,目前Hive对于反复的读写HDFS感到是否头疼,而且数据不大的情况下,效率十分低下。希望有良好的方案能够解决,并大幅提高ETL的效率。presto还是看presto.io的网址。。仅此而已。。有空得研究下这两个,各家理论都有特别的东西,值得一看。根据我了解Stringer中的Tez就是解决Hive这一问题,把不必要的过程简化掉,兄台有兴趣可以研究下
引用来自“_hadooper”的评论大数据的实时本身就不合理,如果一定要也只能是大量的数据索引!但是这样又导致暂用大量的存储空间!大数据的实时是业务需求,有可能是秒级,有可能是分钟级,存在即合理。至于需要大量的存储空间也是没办法的,只能是空间换时间,再精妙的算法也只能减少这个比例。土豪的办法是直接加机器,管你空间还是计算
大数据的实时本身就不合理,如果一定要也只能是大量的数据索引!但是这样又导致暂用大量的存储空间!
引用来自“martin_li”的评论引用来自“吐槽的达达仔”的评论这些资料很多地方都有。。楼主的辛苦收集的材料实在略显单薄。。SQL on Hadoop的项目还有 Apache的项目tajo,Facebook的Presto等等。。甚至连Stinger的实现原理都没去解释,只是贴个图片。。tajo是第一次听说,多谢兄台相告。Presto据说稳定性有问题,再时间只是整理了一天,所以就没管这个东西。不知兄台对于这两个项目有没有一些资料推荐下呢?Stinger我个人感觉,其所有功能都基于Tez这个模块,实在可讲的东西不多。兄台对于Stinger有何见解,欢迎指教目前确实有需求要做低延迟的SQL on Hadoop,目前Hive对于反复的读写HDFS感到是否头疼,而且数据不大的情况下,效率十分低下。希望有良好的方案能够解决,并大幅提高ETL的效率。presto还是看presto.io的网址。。仅此而已。。
引用来自“吐槽的达达仔”的评论这些资料很多地方都有。。楼主的辛苦收集的材料实在略显单薄。。SQL on Hadoop的项目还有 Apache的项目tajo,Facebook的Presto等等。。甚至连Stinger的实现原理都没去解释,只是贴个图片。。tajo是第一次听说,多谢兄台相告。Presto据说稳定性有问题,再时间只是整理了一天,所以就没管这个东西。不知兄台对于这两个项目有没有一些资料推荐下呢?Stinger我个人感觉,其所有功能都基于Tez这个模块,实在可讲的东西不多。兄台对于Stinger有何见解,欢迎指教
这些资料很多地方都有。。楼主的辛苦收集的材料实在略显单薄。。SQL on Hadoop的项目还有 Apache的项目tajo,Facebook的Presto等等。。甚至连Stinger的实现原理都没去解释,只是贴个图片。。
评论删除后,数据将无法恢复
由于Hive采用了SQL的查询语言HQL,因此很容易将Hive理解为数据库。其实从结构上来看,Hive和数据库除了拥有类似的查询语言,再无类似之处。本文将从多个方面来阐述Hive和数据库的差异。数据库...
shida1009 ?
为了跟上所谓“大数据”技术的脚步,从两年前开始着手实践各种SQL-on-Hadoop技术,从最初的Hive,到SparkSQL,再到Impala,进行了一系列ETL、CDC、多维数据仓库、OLAP的实验。作为一名从业2...
  Actian SQL for Hadoop:高性能交互式的SQL,可访问所有的Hadoop数据;   Apache Drill:由Dremel授意的交互式分析框架;   Apache HCatalog:Hadoop的表格和存储管理层;   Apache ...
oxiaohaio ?
从网上转的 当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展...
强子哥哥 ?
前言 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。它大数据分布式计算的典型代表。本博客参考了大量博客后总结出来的,如有不正,请多指教。 Hadoop这个名词还是在实习的时候听同...
mengdonghui123456 ?
一说到开源大数据处理平台,就不得不说此领域的开山鼻祖Hadoop,它是GFS和MapReduce的开源实现。虽然在此之前有很多类似的分布式存储和计算平台,但真正能实现工业级应用、降低使用门槛、带动...
aibati2008 ?
转自:http://www.cctime.com/html//41991.htm 引言 大数据基础技术领域中Hadoop的地位已获得广泛认同,但目前国内外市场上的Hadoop版本也是林林总总,到底该参照什么标...
yntmdr ? 06/28 ?
目录: 初始Hive Hive安装与配置 Hive 内建操作符与函数开发 Hive JDBC hive参数 Hive 高级编程 Hive QL Hive Shell 基本操作 hive 优化 Hive体系结构 Hive的原理第一部分:Hive简介 什么是H...
东方神剑 ?
Hive能做什么? Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低...
一、SQL on Hadoop 过去五年里,许多企业已慢慢开始接受Hadoop生态系统,将它用作其大数据分析堆栈的核心组件。尽管Hadoop生态系统的MapReduce组件是一个强大的典范,但随着时间的推移,Map...
没有更多内容
加载失败,请刷新页面
Use java8-api Refactor-Testing-Debugging Examining values flowing in a stream pipelime with peek Use peek to print the intermediate value before and after each operation in the ......
writeademo ? 26分钟前 ?
问题背景: 当我们在写H5页面时经常会有fixed固定位置的元素存在,例如下图左中的"作业帮一课APP下载框",当我们input输入的时候键盘会弹起并将fixed定位的下载框顶起,如下图右,ios和安卓部分机...
JamesView ? 30分钟前 ?
最近在整理redis分布式集群,首先就整理一下分布式算法原理。 余数Hash算法 一个字符串key,先对它进行hash,那么hash后再与4取余值 即hash(key)%3,结果可能为0、1、2,3. 现假设有4个redis...
to_ln ? 34分钟前 ?
&?phpfunction read_all($dir) {
if (!is_dir($dir))
$handle = opendir($dir);
if ($handle) {
while (($fl = readdir($handle)) !== false) { ......
超级大黑猫 ? 42分钟前 ?
环境 Java 版本:1.8.0_172 IDEA 版本:ideaIU- 情景代码 /** * Created by Administrator on
12:00 in Beijing. */public class Calculator {
public int add(i......
绝世武神 ? 43分钟前 ?
先看下xml文件,事实上Servlet3.0开始,就可以不用配置xml文件,可以段前声明的方式来完成,看博客中另一篇文章。这里还是暂时使用下xml配置文件: &?xml version="1.0" encoding="UTF-8"?&...
临江仙卜算子 ? 45分钟前 ?
配置好java环境变量 从官网下载elasticsearch,解压,进入Elasticsearch目录 在linux环境下输入以下执行命令即可启动: bin/elasticsearch 默认启动外网是无法访问的,需要对配置文件进行修改...
flash胜龙 ? 45分钟前 ?
Airflow on Kubernetes (Part 1): A Different Kind of Operator Author: Daniel Imberman (Bloomberg LP) Introduction As part of Bloomberg’s continued commitment to developing the ......
openthings ? 46分钟前 ?
IterativeQuantization: A Procrustean Approach to Learning Binary Codes 论文理解及代码讲解 这篇文章发表在2011年CVRP上,一作是Yunchao Gong,师从Sanjiv Kumar,关于Sanjiv Kumar可以到...
漫步当下 ? 今天 ?
我们都知道java有8大基本数据类型,分别是4个整数型byte,short,int,long,2个浮点类型float,double,1个布尔型boolean和一个字符型char。 小姿势1:当我们在java中输入一个整数常量时,默...
kalnkaya ? 今天 ?
没有更多内容
加载失败,请刷新页面
文章删除后无法恢复,确定取消删除此文章吗?
亲,自荐的博客将通过私信方式通知管理员,优秀的博客文章审核通过后将在博客推荐列表中显示
确定推荐此文章吗?
确定推荐此博主吗?
聚合全网技术文章,根据你的阅读喜好进行个性推荐
指定官方社区
深圳市奥思网络科技有限公司版权所有查看: 24636|回复: 11
微软有没有类似hadoop的技术?
主题听众收听
注册会员, 积分 174, 距离下一级还需 26 积分
注册会员, 积分 174, 距离下一级还需 26 积分
我刚接触hadoop,在搜百度新闻印象中有微软的hadoop,但是又找不到了。莫非是我眼花弄错了。因为需要用到很多微软的库文件,比如activeX、DLL。因此在Linux上写MapReduce涉及到activeX和DLL中包含的算法调用会很麻烦。
所以想问问大家,有没有在Windows上跑的hadoop或者类似并行计算的框架。云环境是私有云。
主题听众收听
微软 , Windows Azure HDInsight 现在支持使用预览版 Hadoop 群集。
什么是Windows Azure HDInsight?
Windows Azure HDInsight 是 Microsoft 在 部署的完全基于 Apache Hadoop 的解决方案。Hadoop 是一个分布式存储和处理平台,可对大量关系数据和非关系数据进行分析。通过HDInsight,Azure 客户可利用 中的数据或计算节点本地的本机 HDFS 文件系统中的数据。然后可动态配置 Hadoop 群集,以处理您的数据并利用 Windows Azure 进行灵活缩放。阅读聚焦,它重点介绍了一些客户如何利用 HDInsight 处理大量数据并将新的数据类型整合到分析中。
HDInsight包括storm、hive等
想了解更多
主题听众收听
注册会员, 积分 174, 距离下一级还需 26 积分
注册会员, 积分 174, 距离下一级还需 26 积分
微软推出 Windows Azure HDInsight , Windows Azure HDInsight 现在支持使用预览版 Hadoop 群集。
微软那个是公有云,我司是私有云建集群,所以微软那个不适合。
公司想用hadoop做并行运算和分布式存储。但代码是c++和c#。微软的hdinsight是公有云服务,我司是私有云不合适。然后我看到hortonworks公司推出hdp windows版,还是开源的。请问有人用过吗?
如果hortonworks的产品可以在私有云上部署且支持activeX dll调用就可以用。想问问有没有人知道。请告知,谢谢
主题听众收听
中级会员, 积分 750, 距离下一级还需 250 积分
中级会员, 积分 750, 距离下一级还需 250 积分
这个没听说过.
主题听众收听
高级会员, 积分 2030, 距离下一级还需 2970 积分
高级会员, 积分 2030, 距离下一级还需 2970 积分
微软那个是公有云,我司是私有云建集群,所以微软那个不适合。
公司想用hadoop做并行运算和分布式存储。 ...
Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”)、Hortonworks版本(Hortonworks Data Platform,简称“HDP”),
对于上面版本,我们对于Apache及Cloudera了解的比较多。
从这两个版本来看,他们的特性都是一致的,也就是说hadoop有什么特性,Cloudera就有什么特性。为什么会产生Cloudera,比如:
部署方便,监控方便,使用方便。但是本质都一样的,大家都是使用Java语言,都是跑mapreduce,都是使用yarn。
如果想使用其它语言,了解hadoop stream ,thrift,来进行转换。
HDP是与Cloudera一样的,对hadoop进行的封装,也就是说他们本质是一样的。也就是说它也是直接支持Java的,想使用其它语言,同样需要使用hadoop stream ,thrift,来进行转换。
并且对hdp官网逛了下,他们所说的是支持在window下安装,但是并不意味着就能够直接支持其它语言。
hdp在安装的时候,可以选择安装vs,并不是必须的,这是唯一和C#挂钩的地方。
1.png (39.26 KB, 下载次数: 0)
14:37 上传
主题听众收听
注册会员, 积分 174, 距离下一级还需 26 积分
注册会员, 积分 174, 距离下一级还需 26 积分
Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改 ...
我的问题是Linux系统下不方便调用window环境s下编译的动态库。所以如果hadoop可以放在Window平台上建立集群,是不是就可以很好的调用windows下编译的动态库呢?就是Hadoop语言当然还是Java,我只需要用Java去调用windows下编译的动态库如dll就好了。
国内应该很多小型企业项目是用C++和C#写的,需要用到Windows环境的应该很多啊。但是为什么HortonWorks在我们这边的资料少之又少。我总共就搜到2篇博客,一篇windows版刚尝试搭建了3个节点的集群,一篇是体验了HDP2.0单机版,安装看教程也很简单。
我现在就在下载安装包,1.9G比原生的hadoop2.6 才180M真的大了好多。
主题听众收听
注册会员, 积分 174, 距离下一级还需 26 积分
注册会员, 积分 174, 距离下一级还需 26 积分
我的问题是Linux系统下不方便调用window环境s下编译的动态库。所以如果hadoop可以放在Window平台上建立集 ...
hdp for windows 首先安装了VMware WorkStation虚拟机,虚拟机上装windows server 2008 R2 企业版。
先尝试单节点安装。
安装前的准备:
VC++ 2010 RUNTIME
Python2.7 (版本太高会装不上去,安装需要VC++ RUNTIME支持,若VC++版本低了装不上)
JDK1.7以上版本(前面傻乎乎装的1.6版本,启动hdp服务出错,马上意识到时hadoop最近的版本不支持1.6了)
.NET FrameWork 4.0以上
关闭防火墙,控制面板-防火墙-高级-预配置 公共配置 专用配置防火墙都关闭
关闭IPV6支持,网络设置里去勾选
使能远程脚本功能:在windows PowerShell中一行一行运行脚本
Set-ExecutionPolicy &AllSigned&&&Enable-PSRemoting&&Set-item wsman:localhost\client\trustedhosts -value &localhost&&&&&winrm quickconfig&&winrm set winrm/config/client &&
运行安装包msiexec /i &hdp-1.1.0-GA.winpkg.msi&
配置窗口里设置
& & #Log directory
& & HDP_LOG_DIR=c:\hadoop\logs
& & #Data directory
& & HDP_DATA_DIR=c:\hdp\data
& & #Hosts (Roles for the host machines in your cluster)
& & NAMENODE_HOST=localhost
& & SECONDARY_NAMENODE_HOST=localhost
& & JOBTRACKER_HOST=localhost
& & HIVE_SERVER_HOST=localhost
& & OOZIE_SERVER_HOST=localhost
& & TEMPLETON_HOST=localhost
& & SLAVE_HOSTS=localhost
& & #Database host
& & DB_FLAVOR=derby
& & DB_HOSTNAME=localhost
& & #Hive properties
& & HIVE_DB_NAME=hive
& & HIVE_DB_USERNAME=hive
& & HIVE_DB_PASSWORD=hive
& & #Oozie properties
& & OOZIE_DB_NAME=oozie
& & OOZIE_DB_USERNAME=oozie
& & OOZIE_DB_PASSWORD=oozie
20分钟安装好后启动服务start_local_hdp_services.cmd
Run-SmokeTests.cmd&& 然而namenode 都没有启动,还不知道怎么查看日志,没有找到namenode的日志。 接着无聊直接想装多节点的,master slave1 slave2。这回是服务都是Stop状态。目前是这样。Master nodes: start master
1 Master nodes successfully started.
10 Master nodes failed to start.PSComputerName& && &Service& && && && & Message& && && && & Status& && && && &
--------------& && &-------& && && && & -------& && && && & ------& && && && &
master& && && && &&&derbyserver& && && &服务“Apache Had... Stopped& && && && &
master& && && && &&&hiveserver2& && && &服务“Apache Had... Stopped& && && && &
master& && && && &&&jobhistoryserver& & 服务“Apache Had... Stopped& && && && &
master& && && && &&&metastore& && && &&&服务“Apache Had... Stopped& && && && &
master& && && && &&&namenode& && && && &服务“Apache Had... Stopped& && && && &
master& && && && &&&resourcemanager& &&&服务“Apache Had... Stopped& && && && &
master& && && && &&&secondarynamenode& &服务“Apache Had... Stopped& && && && &
master& && && && &&&templeton& && && &&&服务“Apache Had... Stopped& && && && &
master& && && && &&&timelineserver& && &服务“Apache Had... Stopped& && && && &
master& && && && &&&zkServer& && && && &服务“Apache Had... Stopped& && && && &
StartStop-HDPServices : Manually start services on Master nodes then retry full
cluster start.&&Exiting.
所在位置 C:\hdp\manage_remote_hdp_services.ps1:187 字符: 47
+ if ($mode -eq &start&) { StartStop-HDPservices &&&& ($mode) }
& & + CategoryInfo& && && & : NotSpecified: (:) [Write-Error], WriteErrorExcep
& & + FullyQualifiedErrorId : Microsoft.PowerShell.Commands.WriteErrorExceptio
& &n,StartStop-HDPServices
本人正在很傻比的再卸载重装。
主题听众收听
注册会员, 积分 174, 距离下一级还需 26 积分
注册会员, 积分 174, 距离下一级还需 26 积分
hdp for windows 首先安装了VMware WorkStation虚拟机,虚拟机上装windows server 2008 R2 企业版。
好的,这回单节点的hdp算是安装好了。冒烟测试第一次失败,第二次运行也通过了。
大致过程:
cmd或者windows PowerShell中 安装包所在目录 运行脚本 msiexec /i hdp-2.2.4.2.winpkg.msi
出现配置窗口。设置Hadoop用户密码,删除存在的hdp数据,数据库设置Hive,OOzie,DBFlavor选择DERBY。(用社区版的hadoop,我只用到mapreduce和hdfs,其他没有用到,也没有设置,但是这个发行版需要设置这些数据库,也有服务,),去勾选额外的组件,DBFlavor默认是MSSQL,但是因为没有安装这些数据库所以改为DERBY。所以,这里说的只是体验下,和生产无关。
冒烟测试用例
先创建/user/smoketest在HDFS上的目录,官方给出的是这样的
%HADOOP_HOME%\bin\hdfs dfs -mkdir -p /user/smoketest
用hadoop用户运行脚本,因为还是管理员用户
runas /user:hadoop &cmd /K %HADOOP_HOME%\Run-SmokeTests.cmd&
第一次失败了,说是copyLocal找不到本地的路径
第二次目前还在跑,但是wordcount的mapreduce例子是跑通了,其他的pig的一些我不懂的例子,目前没看到报错,说明单节点安装是没有问题。
我以为单节点安装的意义是确定这个节点的机器环境是正确的,然后在批量克隆虚拟机建立集群。
多节点集群的部署,我以为就是远程访问PowerShell脚本要运行一下,确认可以远程Invoke-Command -ComputerName 远程主机名 -ScriptBlock {hostname},若可以正确显示主机名,那么在安装时输入窗口的内容就都可以用master,slave1,slave2这些作为地址。
多节点部署应该没有什么问题。
先部署看看,试试写个mapreduce类,类中调用C#和C++动态库的方法,看行不行。
主题听众收听
高级会员, 积分 3969, 距离下一级还需 1031 积分
高级会员, 积分 3969, 距离下一级还需 1031 积分
好的,这回单节点的hdp算是安装好了。冒烟测试第一次失败,第二次运行也通过了。
大致过程:
cmd或者wi ...
虚拟机利用好快照,防止重复卸载和安装。装坏了,恢复下就好了
欢迎加入about云群 、 ,云计算爱好者群,关注
主题听众收听
注册会员, 积分 174, 距离下一级还需 26 积分
注册会员, 积分 174, 距离下一级还需 26 积分
虚拟机利用好快照,防止重复卸载和安装。装坏了,恢复下就好了
使用虚拟机搭建hadoop、openstack集 ...
对快照不了解。看HDFS时也有提到快照。你这里提到的我感觉就像系统还原,安装hadoop失败又要重新卸载很花时间,直接用快照恢复到最开始的状态。感觉像像打BOSS打不过去,幸亏有存档不用再走一遍走过的老路。
理解很到位&
积极上进,爱好学习
经常参与各类话题的讨论,发帖内容较有主见
经常帮助其他会员答疑
站长推荐 /4
会员注册不成功的原因
新手获取积分方法
hadoop3.0学习:零基础安装部署hadoop集群
about云课程:大数据日志实时分析
Powered by
& 2018 Designed by

我要回帖

更多关于 大学有没有环保专业 的文章

 

随机推荐