谁知道学hadoop需要什么基础项目都有什么

hadoop有哪些组件或相关项目_百度知道
hadoop有哪些组件或相关项目
我有更好的答案
  Hadoop介绍:  Hadoop是一个分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。  Hadoop主要子项目:  * Hadoop Common: 在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop Common  * HDFS: Hadoop 分布式文件系统 (Distributed File System) - HDFS (Hadoop Distributed File System)  * MapReduce:并行计算框架,0.20前使用 org.apache.hadoop.mapred 旧接口,0.20版本开始引入org.apache.hadoop.mapreduce的新API  * HBase: 类似Google BigTable的分布式NoSQL列数据库。(HBase 和 Avro 已经于2010年5月成为顶级 Apache 项目[1])  * Hive:数据仓库工具,由Facebook贡献。  * Zookeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。  * Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。
采纳率:87%
Hadoop中类似于数据仓库的应用,所有要用到的表可以存在Hive中,并且HQL语言类sql语言直接见表查询。Hdfs是Hadoop中文件存储的格式。Hbase Hadoop中一种表存储的方式,是以列式存储的方式存储一些大数据量的表。Pig Hadoop的ETL平台工具,提供了简便的语言也是。Sqoop 就是一个搬数的工具,从关系型数据库到Hdfs中,或者反过来。 也可以用Java接口直接实现搬数的过程。ODI(12版本)加入Hive架构,使得搬数更简单了。 Sqoop速度好慢,增量也比较麻烦。Maoreduce就是Hadoop核心算法,一个Map 一个Reduce函数。Mahout 是Hadoop的一个数据挖掘应用,利用许多封装好的算法进行数据分析例如K-Means算法。
本回答被网友采纳
为您推荐:
其他类似问题
您可能关注的内容
hadoop的相关知识
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。hadoop相关实际项目_百度文库
您的浏览器Javascript被禁用,需开启后体验完整功能,
享专业文档下载特权
&赠共享文档下载特权
&10W篇文档免费专享
&每天抽奖多种福利
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
hadoop相关实际项目
&&hadoop相关实际项目
阅读已结束,下载本文需要
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,同时保存到云知识,更方便管理
加入VIP
还剩3页未读,
定制HR最喜欢的简历
你可能喜欢一分钟让你知道Hadoop是什么一分钟让你知道Hadoop是什么千锋好程序员百家号关注我的人都成为了月薪5w以上的技术大牛 hadoop是什么?Hadoop是一种分析和处理大数据的软件平台,是Appach的一个用Java语言所实现的开源软件的加框,在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。  Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算.  大数据在Hadoop处理的流程可以参照下面简单的图来进行理解:数据是通过了Hadoop的集群处理后得到的结果。  HDFS:Hadoop Distributed File System,Hadoop的分布式文件系统.  大文件被分成默认64M一块的数据块分布存储在集群机器中.如下图中的文件 data1被分成3块,这3块以冗余镜像的方式分布在不同的机器中。  MapReduce:Hadoop为每一个input split创建一个task调用Map计算,在此task中依次处理此split中的一个个记录(record),map会将结果以key--value 的形式输出,hadoop负责按key值将map的输出整理后作为Reduce的输入,Reduce Task的输出为整个job的输出,保存在HDFS上.  Hadoop的集群主要由 NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成.如下图所示:  NameNode中记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点.NameNode同时保存了文件系统运行的状态信息. DataNode中存储的是被拆分的blocks.Secondary NameNode帮助NameNode收集文件系统运行的状态信息.JobTracker当有任务提交到Hadoop集群的时候负责Job的运行,负责调度多个TaskTracker.TaskTracker负责某一个map或者reduce任务.好程序员致力于移动互联网精英人才培养,开设全栈HTML5+、大数据+人工智能、JavaEE+云数据等多门课程。学员入职阿里、新浪、百度、搜狗等知名企业屡见不鲜,成就学员转行、就业,拿高薪进名企的梦想。大数据+人工智能课程1月15日开班在即,现报名免费试学30天,学费优惠5000元。本文由百家号作者上传并发布,百家号仅提供信息发布平台。文章仅代表作者个人观点,不代表百度立场。未经作者许可,不得转载。千锋好程序员百家号最近更新:简介:做真实的自己,为高端而生作者最新文章相关文章  本课程的视频教程地址:《》
  好的,下面就开始本篇教程的内容分享,本篇教程我为大家介绍我们要做一个什么样的Hadoop项目,并且对Hadoop项目的基本特点和其中的难点做有针对性的剖析,完成项目环境的基本配置,以及项目工程和Hadoop插件的相关准备等工作。
  本课程主要包含以下课时,其内容如下图所示:
  本节为大家分享的是第一节&&《》,下面开始今天的分享内容。
  从这节开始,我们将进入到Hadoop项目的实战学习,本节课程为大家介绍的主要知识点有一下内容,如下图所示:
  首先,我们来看看本节的Hadoop的业务知识点,业务场景如下:
  假设现在有以下场景,用户每天都会对某网站进行点击,这些点击都会记录到日志中,然后分析用户在网站的使用习惯。
  其内容包含如下内容,如下图所示:
  接着,是Hadoop的应用场景,其内容包含如下内容,如下图所示:
  通过阅读上图,下面我给大家解释以下这个图中所设计的含义:
  1.Hadoop的核心之一,就是它的离线计算模型MapReduce。
在数据统计中,统计网站的PV、UV
大规模Web信息搜索
一些复杂的算法
  MapReduce都能非常友好的实现。
  2.海量数据的离线分析  在MapReduce框架下,很难处理实时计算,作业都以日志分析这样的离线作业为主。
  3.静态数据源  Hadoop要保证分析与计算的数据源是静态的,不能是实时的流水数据。这也是Hadoop自身设计特点决定了数据源必须是静态的。
  在了解了Hadoop的应用场景和业务场景之后,下面我们来看看用户行为分析平台的搭建需要注意哪些事项,注意事项包含以下内容,如下图所示: 
  1.平台的高可用性  
  如图所示,这是一个高可用平台的简要说明图,在Hadoop2.x版本后,Hadoop提出了HA方案。HA方案的出现,解决了第一代的单点问题,在图中,我们可以看出,在Client请求服务时,若NameNode Active(NNA)节点宕机,整个集群依然是可用的,NameNode Standby(简称NNS)节点会立马切换自己的状态,由Standby切换为Active,并对外提供服务。保证集群的高可用性。
  注:下面是集群的启动演示,可以参考视频的启动步骤:《》  2.在对NameNode Active节点和NameNode Standby节点配置时  hdfs-site.xml和core-site.xml两个文件中HDFS的NameService要保持一致;在配置HA的实现时,Hadoop官方提供了两种NameNode HA的实现方式,分别是QJM和NFS,同学们可自选一种实现。  3.在配置YARN的相关配置文件  yarn-site.xml文件,有一个属性需要特别注意,它就是yarn.resourcemanager.ha.id这个属性。假设,我们在NNA节点上配置的是value值是rm1,那么在NNS节点上我们得将value换成rm2。
  4.在集群启动时,需注意按照以下顺序  第一步:由于我们选择的是QJM方案,需要使用到zookeeper,所以在各个DataNode节点上启动zookeeper服务  第二步:在其中一台NameNode节点(这里我预选取的是NameNode Active节点)启动journalnode服务,该服务用于共享存储,同步节点信息。  第三步:若是首次启动,需要在其中一台NameNode Active节点上格式HDFS  第四步:接着我们同样一台NameNode Active节点格式化zkfc,它对应的类是DFSZKFailoverController  第五步:在NameNode Active节点启动hdfs服务和yarn服务  第六步:同步NameNode Active节点的元数据
  这就是本节的主要内容,主要就对Hadoop做一个回顾学习,对后续学习Hadoop项目实战做一个准备工作。
  如果本教程能帮助到您,希望您能点击进去观看一下,谢谢您的支持!
  转载请注明出处,谢谢合作!
  &本课程的视频教程地址:《》
阅读(...) 评论()最常见的7 种 Hadoop 和 Spark 项目案例
如果您的 Hadoop 项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。
有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的 Hadoop、Spark 和 Storm,每个人都认为他们正在做一些与这些新的大数据技术相关的事情,但它不需要很长的时间遇到相同的模式。具体的实施可能有所不同,但根据我的经验,它们是最常见的七种项目。
项目一:数据整合
称之为 “企业级数据中心” 或 “数据湖”,这个想法是你有不同的数据源,你想对它们进行数据分析。这类项目包括从所有来源获得数据源 (实时或批处理) 并且把它们存储在 hadoop 中。有时,这是成为一个 “数据驱动的公司” 的第一步; 有时,或许你仅仅需要一份漂亮的报告。“企业级数据中心” 通常由 HDFS 文件系统和 HIVE 或 IMPALA 中的表组成。未来,HBase 和 Phoenix 在大数据整合方面将大展拳脚,打开一个新的局面,创建出全新的数据美丽新世界。
销售人员喜欢说 “读模式”,但事实上,要取得成功,你必须清楚的了解自己的用例将是什么 (Hive 模式不会看起来与你在企业数据仓库中所做的不一样)。真实的原因是一个数据湖比 Teradata 和 Netezza 公司有更强的水平扩展性和低得多的成本。许多人在做前端分析时使用 Tabelu 和 Excel。许多复杂的公司以 “数据科学家” 用 Zeppelin 或 IPython 笔记本作为前端。
项目二:专业分析
许多数据整合项目实际上是从你特殊的需求和某一数据集系统的分析开始的。这些往往是令人难以置信的特定领域,如在银行领域的流动性风险 / 蒙特卡罗模拟分析。在过去,这种专业的分析依赖于过时的,专有的软件包,无法扩大数据的规模经常遭受一个有限的功能集 (大部分是因为软件厂商不可能像专业机构那样了解的那么多)。
在 Hadoop 和 Spark 的世界,看看这些系统大致相同的数据整合系统,但往往有更多的 HBase,定制非 SQL 代码,和更少的数据来源 (如果不是的)。他们越来越多地以 Spark 为基础。
项目三:Hadoop 作为一种服务
在 “专业分析” 项目的任何大型组织 (讽刺的是,一个或两个 “数据整理” 项目) 他们会不可避免地开始感觉 “快乐”(即,疼痛) 管理几个不同配置的 Hadoop 集群,有时从不同的供应商。接下来,他们会说,“也许我们应该整合这些资源池,” 而不是大部分时间让大部分节点处于资源闲置状态。它们应该组成云计算,但许多公司经常会因为安全的原因 (内部政治和工作保护) 不能或不会。这通常意味着很多 Docker 容器包。
我没有使用它,但最近 Bluedata(蓝色数据国际中心) 似乎有一个解决方案,这也会吸引小企业缺乏足够的资金来部署 Hadoop 作为一种服务。
项目四:流分析
很多人会把这个 “流”,但流分析是不同的,从设备流。通常,流分析是一个组织在批处理中的实时版本。以反洗钱和欺诈检测:为什么不在交易的基础上,抓住它发生而不是在一个周期结束? 同样的库存管理或其他任何。
在某些情况下,这是一种新的类型的交易系统,分析数据位的位,因为你将它并联到一个分析系统中。这些系统证明自己如 Spark 或 Storm 与 Hbase 作为常用的数据存储。请注意,流分析并不能取代所有形式的分析,对某些你从未考虑过的事情而言,你仍然希望分析历史趋势或看过去的数据。
项目五:复杂事件处理
在这里,我们谈论的是亚秒级的实时事件处理。虽然还没有足够快的超低延迟 (皮秒或纳秒) 的应用,如高端的交易系统,你可以期待毫秒响应时间。例子包括对事物或事件的互联网电信运营商处理的呼叫数据记录的实时评价。有时,你会看到这样的系统使用 Spark 和 HBase——但他们一般落在他们的脸上,必须转换成 Storm,这是基于由 LMAX 交易所开发的干扰模式。
在过去,这样的系统已经基于定制的消息或高性能,从货架上,客户端 - 服务器消息产品 - 但今天的数据量太多了。我还没有使用它,但 Apex 项目看起来很有前途,声称要比 Storm 快。
项目六:ETL 流
有时你想捕捉流数据并把它们存储起来。这些项目通常与 1 号或 2 号重合,但增加了各自的范围和特点。(有些人认为他们是 4 号或 5 号,但他们实际上是在向磁盘倾倒和分析数据。),这些几乎都是 Kafka 和 Storm 项目。Spark 也使用,但没有理由,因为你不需要在内存分析。
项目七:更换或增加 SAS
SAS 是精细,是好的但 SAS 也很贵,我们不需要为你的数据科学家和分析师买存储你就可以 “玩” 数据。此外,除 SAS 可以做或产生漂亮的图形分析外,你还可以做一些不同的事情。这是你的 “数据湖”。这里是 IPython 笔记本 (现在) 和 Zeppelin(以后)。我们用 SAS 存储结果。
当我每天看到其他不同类型的 Hadoop,Spark,或 Storm 项目,这些都是正常的。如果你使用 Hadoop,你可能了解它们。几年前我已经实施了这些项目中的部分案例,使用的是其它技术。
如果你是一个老前辈太害怕 “大” 或 “做” 大数据 Hadoop,不要担心。事情越变越多,但本质保持不变。你会发现很多相似之处的东西你用来部署和时髦的技术都是围绕 Hadooposphere 旋转的。
文章来源:数盟
《Hadoop集群原理与运维实践》课程由朱广彬老师亲授!将从Hadoop集群运维的角度着手,从零开始手把手规划、部署、安装、优化和管理集群,综合互联网一线大规模Hadoop集群运维的实践经验,更深入的剖析Hadoop集群原理,教授如何零基础构建更加高效、稳定、可扩展的大规模Hadoop集群。通过本课程的学习,有助于深入理解Hadoop原理,能够胜任PB级大规模Hadoop集群运维管理的工作。并应用到自己的工作环境中。
责任编辑:
声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
今日搜狐热点

我要回帖

更多关于 学hadoop需要什么基础 的文章

 

随机推荐