如何顶层设计一套Hadoop大数据平台架构设计

51CTO旗下网站
hadoop是什么:分布式系统基础架构
hadoop是什么?hadoop能有哪些应用?hadoop和大数据是什么关系?下面我们将围绕这几个问题详细阐述。
作者:佚名来源:| 15:48
hadoop是什么?hadoop能有哪些应用?hadoop和大数据是什么关系?下面我们将围绕这几个问题详细阐述。
hadoop是什么?
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。
2006 年 3 月份,Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。
Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具,但它也可以解决许多要求极大伸缩性的问题。例如,如果您要 grep 一个 10TB 的巨型文件,会出现什么情况?在传统的系统上,这将需要很长的时间。但是 Hadoop 在设计时就考虑到这些问题,采用并行执行机制,因此能大大提高效率。
Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。Hadoop 最初只与网页索引有关,迅速发展成为分析大数据的领先平台。
目前有很多公司开始提供基于Hadoop的商业软件、支持、服务以及培训。Cloudera是一家美国的企业软件公司,该公司在2008年开始提供基于Hadoop的软件和服务。GoGrid是一家云计算基础设施公司,在2012年,该公司与Cloudera合作加速了企业采纳基于Hadoop应用的步伐。Dataguise公司是一家数据安全公司,同样在2012年该公司推出了一款针对Hadoop的数据保护和风险评估。
Hadoop应用案例&全球著名企业应用案例
美国国会图书馆是全球最大的图书馆,自1800年设立至今,收藏了超过1.5亿个实体对象,包括书籍、影音、老地图、胶卷等,数字数据量也达到了235TB,但美国eBay拍卖网站,8千万名用户每天产生的数据量就有50TB,5天就相当于1座美国国会图书馆的容量。
在国外,不只eBay这种跨国电子商务业者感受到巨量数据的冲击,其他如美国连锁超市龙头Wal-Mart、发行信用卡的Visa公司等,在台湾如台湾集成电路(台积电)、中华电信等手上拥有大量顾客资料的企业,都纷纷感受到这股如海啸般来袭的Big Data巨量资料浪潮。这样的巨量数据并非是没有价值的数据,其中潜藏了许多使用者亲身经验的第一手原始数据,不少企业更是从中嗅到了商机。
这些企业纷纷向最早面临大数据挑战的搜索引擎业者Google、Yahoo取经,学习处理巨量数据的技术和经验,其中,最受这些企业青睐,用来解决巨量数据难题的技术就是Apache基金会的分布式计算技术Hadoop项目。
Hadoop应用案例1-全球最大超市业者 Wal-Mart
Wal-Mart分析顾客商品搜索行为,找出超越竞争对手的商机
全球最大连锁超市Wal-Mart利用Hadoop来分析顾客搜寻商品的行为,以及用户透过搜索引擎寻找到Wal-Mart网站的关键词,利用这些关键词的分析结果发掘顾客需求,以规画下一季商品的促销策略,甚至打算分析顾客在Facebook、Twitter等社交网站上对商品的讨论,期望能比竞争对手提前一步发现顾客需求。
Wal-Mart虽然十年前就投入在线电子商务,但在线销售的营收远远落后于Amazon。后来,Wal-Mart决定采用Hadoop来分析顾客搜寻商品的行为,以及用户透过搜索引擎寻找到Wal-Mart网站的关键词,利用这些关键词的分析结果发掘顾客需求,以规画下一季商品的促销策略。他们并进一步打算要分析顾客在Facebook、Twitter等社交网站上对商品的讨论,甚至Wal-Mart能比父亲更快知道女儿怀孕的消息,并且主动寄送相关商品的促销邮件,可说是比竞争对手提前一步发现顾客。
Hadoop应用案例2-全球最大拍卖网站 eBay
eBay用Hadoop拆解非结构性巨量数据,降低数据仓储负载
经营拍卖业务的eBay则是用Hadoop来分析买卖双方在网站上的行为。eBay拥有全世界最大的数据仓储系统,每天增加的数据量有50TB,光是储存就是一大挑战,更遑论要分析这些数据,而且更困难的挑战是这些数据报括了结构化的数据和非结构化的数据,如照片、影片、电子邮件、用户的网站浏览Log记录等。
eBay是全球最大的拍卖网站,8千万名用户每天产生的数据量就达到50TB,相当于五天就增加了1座美国国会图书馆的数据量。这些数据报括了结构化的数据,和非结构化的数据如照片、影片、电子邮件、用户的网站浏览Log记录等。eBay正是用Hadoop来解决同时要分析大量结构化数据和非结构化的难题。
eBay分析平台高级总监Oliver Ratzesberger也坦言,最大的挑战就是要同时处理结构化以及非结构化的数据。
eBay在5年多前就另外建置了一个软硬件整合的平台Singularity,搭配压缩技术来解决结构化数据和半结构化数据分析问题,3年前更在这个平台整合了Hadoop来处理非结构化数据,透过Hadoop来进行数据预先处理,将大块结构的非结构化数据拆解成小型数据,再放入数据仓储系统的数据模型中分析,来加快分析速度,也减轻对数据仓储系统的分析负载。
Hadoop应用案例3-全球最大信用卡公司 Visa
Visa快速发现可疑交易,1个月分析时间缩短成13分钟
Visa公司则是拥有一个全球最大的付费网络系统VisaNet,作为信用卡付款验证之用。2009年时,每天就要处理1.3亿次授权交易和140万台ATM的联机存取。为了降低信用卡各种诈骗、盗领事件的损失,Visa公司得分析每一笔事务数据,来找出可疑的交易。虽然每笔交易的数据记录只有短短200位,但每天VisaNet要处理全球上亿笔交易,2年累积的资料多达36TB,过去光是要分析5亿个用户账号之间的关联,得等1个月才能得到结果,所以,Visa也在2009年时导入了Hadoop,建置了2套Hadoop丛集(每套不到50个节点),让分析时间从1个月缩短到13分钟,更快速地找出了可疑交易,也能更快对银行提出预警,甚至能及时阻止诈骗交易。
这套被众多企业赖以解决大数据难题的分布式计算技术,并不是一项全新的技术,早在2006年就出现了,而且Hadoop的核心技术原理,更是源自Google打造搜索引擎的关键技术,后来由Yahoo支持的开源开发团队发展成一套Hadoop分布式计算平台,也成为Yahoo内部打造搜索引擎的关键技术。
大数据与Hadoop之间的关系
大数据,一种新兴的数据挖掘技术,它正在让数据处理和分析变得更便宜更快速。大数据技术一旦进入超级计算时代,很快便可应用于普通企业,在遍地开花的过程中,它将改变许多行业业务经营的模式。但是很多人对大数据存在误解,下面就来缕一缕大数据与Hadoop之间的关系。
我们都听过这个预测:到2020年,电子数据存储量将在2009年的基础上增加44倍,达到35万亿GB。根据IDC数据显示,截止到2010年,这个数字已经达到了120万PB,或1.2ZB。如果把所有这些数据都存入DVD光盘,光盘高度将等同于从地球到月球的一个来回也就是大约 480,000英里。
对于那些喜欢杞人忧天的人来说,这是数据存储的末日即将到来的不祥预兆。而对于机会主义者们而言,这就好比是个信息金矿,随着技术的进步,金矿开采会变得越来越容易。
走进大数据,一种新兴的数据挖掘技术,它正在让数据处理和分析变得更便宜更快速。大数据技术一旦进入超级计算时代,很快便可应用于普通企业,在遍地开花的过程中,它将改变许多行业业务经营的模式。
在计算机世界里,大数据被定义为一种使用非传统的数据过滤工具,对大量有序或无序数据集合进行的挖掘过程,它包括但不仅限于分布式计算(Hadoop)。
大数据已经站在了数据存储宣传的风口浪尖,也存在着大量不确定因素,这点上非常像&云&。我们请教了一些分析人士和大数据爱好者,请他们解释一下大数据究竟是什么,以及它对于未来数据存储的意义。
大数据走进历史舞台
适用于企业的大数据已经出现,这在部分程度上要归功于计算能耗的降低以及系统已具备执行多重处理的能力这样一个事实。而且随着主存储器成本的不断下降,和过去相比,公司可以将更多的数据存到存储器中。并且,将多台计算机连到服务器集群也变得更容易了。这三个变化加在一起成就了大数据,IDC 数据库管理分析师Carl Olofson如是说。
&我们不仅要把这些事情做好,还要能承受得起相应的开支&,他说。 &过去的某些超级计算机也具有执行系统多重处理的能力,(这些系统紧密相连,形成了一个集群)但因为要使用专门的硬件,它的成本高达几十万美元甚至更多。&现在我们可以使用普通硬件完成相同的配置。正因为这样,我们能更快更省得处理更多数据。&
大数据技术还没有在有大型数据仓库的公司中得到广泛普及。IDC认为,想让大数据技术得到认可,首先技术本身一定要足够便宜,然后,必须满足IBM称之为3V标准中的2V,即:类型(variety),量(volume)和速度(velocity)。
种类要求指的是待存储数据的类型分为结构化数据和非结构化数据。量是指存储和分析的数据量可以很庞大。 &数据量不只是几百TB,&
Olofson说: &要视具体情况而定,因为速度和时间的关系,有时几百GB可能就算很多了。如果我现在一秒能完成过去要花一小时才能完成的300GB的数据分析,那结果将大为不同。大数据就是这样一种技术,它可以满足这三个要求中的至少两个,并且普通企业也能够部署。&
  关于大数据的三大误解
对于大数据是什么以及大数据能干什么存在很多误会。下面就是有关大数据的三个误解:
1、关系数据库无法大幅增容,因此不能被认为是大数据技术(不对)
2、无需考虑工作负载或具体使用情况,Hadoop或以此类推的任何MapReduce都是大数据的最佳选择。(也不对)
3、图解式管理系统时代已经结束。图解的发展只会成为大数据应用的拦路虎。(可笑的错误)
  大数据与开源的关系
&很多人认为Hadoop和大数据基本上是一个意思。这是错误的,&Olofson说。并解释道: Teradata, MySQL和&智能聚合技术&的某些安装启用都用不到Hadoop,但它们也可以被认为是大数据。
Hadoop是一种用于大数据的应用程序,因为它是建立在MapReduce基础上的,所以引起了极大的关注。(MapReduce是一种用于超级计算的普通方法,之后经过了主要由Google资助的一个项目的优化,因此被简化并变得考究了。) Hadoop是几个紧密关联的Apache项目组成的混合体的主要安装启用程序,其中包括MapReduce环境中的HBase数据库。
为了充分利用Hadoop和类似的先进技术,软件开发商们绞尽脑汁研发出了各种各样的技术,其中很多都是在开源社区里开发出来的。
Olofson 说&他们已经开发出了大量的所谓noSQL数据库,种类之多让人眼花缭乱,其中大部分都是键值配对数据库,能利用多种技术对性能或种类或容量进行优化。&
开源技术还没有得到商业支持。&所以在这方面还需要经过一段时间的发展完善,这一过程可能需要几年。基于这个原因,大数据可能需要一些时日才能在市场上走向成熟&他补充道。
据IDC预计,年内至少有三家商业公司能以某种方式给予Hadoop支持。同时,包括Datameer 在内的几家企业将发布配有Hadoop组件的分析工具,这种工具能帮助企业开发自己的应用程序。Cloudera和Tableau公司的产品清单里已经出现了Hadoop。
hadoop是什么?在阅读完上面的资料后,相信读者对hadoop有了一定了解。【编辑推荐】【责任编辑: TEL:(010)】
大家都在看猜你喜欢
头条热点头条关注头条
24H热文一周话题本月最赞
讲师:5人学习过
讲师:29人学习过
讲师:5人学习过
精选博文论坛热帖下载排行
本书全面而详细地介绍了Linux操作系统。全书分为5个部分:第一部分着重说明Linux的起源及功能,如何规划和安装Linux主机;第二部分介绍Linu...
订阅51CTO邮刊您的 IP 地址/地理位置:&&&&
当前位置: &
资深架构师教你一篇文看懂Hadoop 10:47:06&|&编辑:hely&|&查看:&|&评论:
一瞬间Hadoop也到了要初中择校的年龄了。十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有了Hadoop的集群在运行了各式各样的任务。
作者:陈 飚
&昔我十年前,与君始相识&
一瞬间也到了要初中择校的年龄了。十年前还没有,几年前国内IT圈里还不知道什么是,而现在几乎所有大型企业的IT系统中有已经有了的集群在运行了各式各样的任务。
2006年项目成立的一开始,&Hadoop&这个单词只代表了两个组件&&HDFS和MapReduce。到现在的10个年头,这个单词代表的是&核心&(即Core Hadoop项目)以及与之相关的一个不断成长的生态系统。这个和Linux非常类似,都是由一个核心和一个生态系统组成。
现在Hadoop俨然已经成为企业数据平台的&新常态&。我们很荣幸能够见证Hadoop十年从无到有,再到称王。在我们感动于技术的日新月异时,希望能通过本文能为Hadoop的昨天、今天和明天做出一点自己的解读,算是为Hadoop庆祝10岁生日献上的礼物。
Hadoop编年史
2002年10月,Doug Cutting和Mike Cafarella创建了开源网页爬虫项目Nutch。
2003年10月,Google发表Google File System论文。
2004年7月,Doug Cutting和Mike Cafarella在Nutch中实现了类似GFS的功能,即后来HDFS的前身。
2004年10月,Google发表了MapReduce论文。
2005年2月,Mike Cafarella在Nutch中实现了MapReduce的最初版本。
2005年12月,开源搜索项目Nutch移植到新框架,使用MapReduce和NDFS(Nutch Distributed File System )来运行,在20个节点稳定运行。
2006年1月,Doug Cutting加入雅虎,Yahoo!提供一个专门的团队和资源将Hadoop发展成一个可在网络上运行的系统。
2006年2月,Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。
2006年2月,Yahoo!的网格计算团队采用Hadoop。
2006年3月,Yahoo!建设了第一个Hadoop集群用于开发。
2006年4月,第一个Apache Hadoop发布。
2006年4月,在188个节点上(每个节点10GB)运行排序测试集需要47.9个小时。
2006年5月,Yahoo!建立了一个300个节点的Hadoop研究集群。
2006年5月,在500个节点上运行排序测试集需要42个小时(硬件配置比4月的更好)。
2006年11月,研究集群增加到600个节点。
2006年11月,Google发表了Bigtable论文,这最终激发了HBase的创建。
2006年12月,排序测试集在20个节点上运行1.8个小时,100个节点上运行3.3小时,500个节点上运行5.2小时,900个节点上运行7.8个小时。
2007年1月,研究集群增加到900个节点。
2007年4月,研究集群增加到两个1000个节点的集群。
2007年10月,第一个Hadoop用户组会议召开,社区贡献开始急剧上升。
2007年,百度开始使用Hadoop做离线处理。
2007年,中国移动开始在&大云&研究中使用Hadoop技术。
2008年,淘宝开始投入研究基于Hadoop的系统&&云梯,并将其用于处理电子商务相关数据。
2008年1月,Hadoop成为Apache顶级项目。
2008年2月,Yahoo!运行了世界上最大的Hadoop应用,宣布其搜索引擎产品部署在一个拥有1万个内核的Hadoop集群上。
2008年4月,在900个节点上运行1TB排序测试集仅需209秒,成为世界最快。
2008年6月,Hadoop的第一个SQL框架&&Hive成为了Hadoop的子项目。
2008年7月,Hadoop打破1TB数据排序基准测试记录。Yahoo!的一个Hadoop集群用209秒完成1TB数据的排序 ,比上一年的纪录保持者保持的297秒快了将近90秒。
2008年8月,第一个Hadoop商业化公司Cloudera成立。
2008年10月,研究集群每天装载10TB的数据。
2008年11月,Apache Pig的最初版本发布。
2009年3月,17个集群总共24000台机器。36大数据(http://www.36dsj.com/)
2009 年3月,Cloudera推出世界上首个Hadoop发行版&&CDH(Cloudera&s Distribution including Apache Hadoop)平台,完全由开放源码软件组成。
2009年4月,赢得每分钟排序,59秒内排序500GB(在1400个节点上)和173分钟内排序100TB数据(在3400个节点上)。
2009年5月,Yahoo的团队使用Hadoop对1 TB的数据进行排序只花了62秒时间。
2009年6月,Cloudera的工程师Tom White编写的《Hadoop权威指南》初版出版,后被誉为Hadoop圣经。
2009年7月 ,Hadoop Core项目更名为Hadoop C
2009年7月 ,MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目。
2009年7月 ,Avro 和 Chukwa 成为Hadoop新的子项目。
2009年8月,Hadoop创始人Doug Cutting加入Cloudera担任首席架构师。
2009年10月,首届Hadoop World大会在纽约召开。
2010年5月 ,Avro脱离Hadoop项目,成为Apache顶级项目。
2010年5月 ,HBase脱离Hadoop项目,成为Apache顶级项目。
2010年5月,IBM提供了基于Hadoop 的大数据分析软件&&InfoSphere BigInsights,包括基础版和企业版。
2010年9月,Hive( Facebook) 脱离Hadoop,成为Apache顶级项目。
2010年9月,Pig脱离Hadoop,成为Apache顶级项目。
2010年-2011年,扩大的Hadoop社区忙于建立大量的新组件(Crunch,Sqoop,Flume,Oozie等)来扩展Hadoop的使用场景和可用性。
2011年1月,ZooKeeper 脱离Hadoop,成为Apache顶级项目。
2011年3月,Apache Hadoop获得Media Guardian Innovation Awards 。
2011年3月, Platform Computing 宣布在它的Symphony软件中支持Hadoop MapReduce API。
2011年5月,Mapr Technologies公司推出分布式文件系统和MapReduce引擎&&MapR Distribution for Apache Hadoop。
2011年5月,HCatalog 1.0发布。该项目由Hortonworks 在2010年3月份提出,HCatalog主要用于解决数据存储、元数据的问题,主要解决HDFS的瓶颈,它提供了一个地方来存储数据的状态信息,这使得 数据清理和归档工具可以很容易的进行处理。
2011年4月,SGI(Silicon Graphics International)基于SGI Rackable和CloudRack服务器产品线提供Hadoop优化的解决方案。
2011年5月,EMC为客户推出一种新的基于开源Hadoop解决方案的数据中心设备&&GreenPlum HD,以助其满足客户日益增长的数据分析需求并加快利用开源数据分析软件。Greenplum是EMC在2010年7月收购的一家开源数据仓库公司。
2011年5月,在收购了Engenio之后, NetApp推出与Hadoop应用结合的产品E5400存储系统。
2011年6月,Calxeda公司发起了&开拓者行动&,一个由10家软件公司组成的团队将为基于Calxeda即将推出的ARM系统上芯片设计的服务器提供支持。并为Hadoop提供低功耗服务器技术。
2011年6月,数据集成供应商Informatica发布了其旗舰产品,产品设计初衷是处理当今事务和社会媒体所产生的海量数据,同时支持Hadoop。
2011年7月,Yahoo!和硅谷风险投资公司 Benchmark Capital创建了Hortonworks 公司,旨在让Hadoop更加可靠,并让企业用户更容易安装、管理和使用Hadoop。
2011年8月,Cloudera公布了一项有益于合作伙伴生态系统的计划&&创建一个生态系统,以便硬件供应商、软件供应商以及系统集成商可以一起探索如何使用Hadoop更好的洞察数据。
2011年8月,Dell与Cloudera联合推出Hadoop解决方案&&Cloudera Enterprise。Cloudera Enterprise基于Dell PowerEdge C2100机架服务器以及Dell PowerConnect 6248以太网交换机。
2012年3月,企业必须的重要功能HDFS NameNode HA被加入Hadoop主版本。
2012年8月,另外一个重要的企业适用功能YARN成为Hadoop子项目。
2012年10月,第一个Hadoop原生MPP查询引擎Impala加入到了Hadoop生态圈。
2014年2月,Spark逐渐代替MapReduce成为Hadoop的缺省执行引擎,并成为Apache基金会顶级项目。
2015年2月,Hortonworks和Pivotal抱团提出&Open Data Platform&的倡议,受到传统企业如Microsoft、IBM等企业支持,但其它两大Hadoop厂商Cloudera和MapR拒绝参与。
2015年10月,Cloudera公布继HBase以后的第一个Hadoop原生存储替代方案&&Kudu。
2015年12月,Cloudera发起的Impala和Kudu项目加入Apache孵化器。
注:来源网络,不一一列举。
相关阅读:
搜索"raincent"或扫描下面的二维码如何顶层设计一套Hadoop平台架构_百度知道
如何顶层设计一套Hadoop平台架构
我有更好的答案
用云多好 成本比你自己搞低多了还稳定这个问题对我来说 太大了。。 以我目前的能力还不能给你什么好的建议。你罗列的那么多工具 不是都有用的,大数据分析的关键是如何高效的组织数据源的数据,统一接口才能应付堆积如山的需求。题主问的不是问题,是t提了一个需求,在知乎寻找一个能给你解决方案的人,需要根据你公司具体业务来解决
采纳率:96%
来自团队:
为您推荐:
其他类似问题
您可能关注的内容
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。豆丁微信公众号
君,已阅读到文档的结尾了呢~~
伴随着移动数据量的不断增长,在通讯行业引入大数据技术势在必行,目前安徽省移动数据增长量为20T每天,预计在4G普遍使用后,数据增长量能达到每天30T,需要的数据存储将达到30-50PB。针对如此大的数据量以及相对复杂的应用场景需求,采用Hadoop数据仓储是最优选择。根据大数据处理理论,集群节点数越多,集群规模越大,集群的数据处理能力越强;..
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
HADOOP平台下的多租户架构实现
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='http://www.docin.com/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口星环:如何构建企业级Hadoop/Spark分析平台|大数据|内存_互联网_新浪科技_新浪网
星环:如何构建企业级Hadoop/Spark分析平台
  一说大数据,人们往往想到Hadoop。这固然不错,但随着大数据技术的深入应用,多种类数据应用要求的不断提出,一些Hadoop不甚专注的领域开始被人们注意,相关技术也迅速获得专业技术领域的应用。最近半年来的Spark之热即是这样的一个典型。
  Spark是一个基于内存计算的开源集群计算系统,目的是更快速地进行数据分析。 Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发,早期核心部分的代码只有3万行,非常轻量级。Spark 提供了与Hadoop Map/Reduce 相似的分布式计算框架,但基于内存和迭代优化的设计,因此在交互式数据分析和数据挖掘工作负载中表现更优秀。
  进入2014年以后,Spark开源生态系统得到了大幅增长,已成为大数据领域最活跃的开源项目之一。Spark之所以吸引如此多的关注,究其原因主要是因为Spark具有的高性能、高灵活性、与Hadoop生态系统完美融合等三方面的特征。
  首先,Spark对分布的数据集进行抽象,创新地提出RDD(Resilient Distributed Dataset)的概念,所有的统计分析任务被翻译成对RDD的若干基本操作组成的有向无环图(DAG)。RDD可以被驻留在内存中,后续的任务可以直接读取内存中的数据;同时分析DAG中任务之间的依赖性可以把相邻的任务合并,从而减少了大量的中间结果输出,极大减少了磁盘I/O,使得复杂数据分析任务更高效。从这个意义上来说,如果任务够复杂,迭代次数够多,Spark比Map/Reduce快一到两个数量级。
  其次,Spark是一个灵活的计算框架,适合做批处理、工作流、交互式分析、迭代式机器学习、流处理等不同类型的应用,因此Spark可以成为一个用途广泛的计算引擎,并在未来取代Map/Reduce的地位。
  最后,Spark可以与Hadoop生态系统的很多组件互操作。Spark可以运行在新一代资源管理框架YARN上,它还可以读取已有的存放在Hadoop上的数据,这是个非常大的优势。
  虽然Spark具有以上三大优点,但从目前Spark的发展和应用现状来看,Spark自身也存在很多缺陷,主要包括以下几个方面:
  1. 稳定性方面,由于代码质量问题,Spark长时间运行会经常出错,在架构方面,由于大量数据被缓存在内存中,Java垃圾回收缓慢的现象严重,导致Spark的性能不稳定,在复杂场景SQL的性能甚至不如现有的Map/Reduce。
  2. 不能处理大数据,单台机器处理数据过大,或者由于数据倾斜导致中间结果超过内存大小时,常常出现内存不够或者无法运行得出结果。然而,Map/Reduce计算框架可以处理大数据,在这方面,Spark不如Map/Reduce计算框架有效。
  3. 不能支持复杂的SQL统计,目前Spark支持的SQL语法的完整程度还不能应用在复杂数据分析中。在可管理性方面,Spark与YARN的结合不完善,这就在用户使用过程中埋下隐患,易出现各种难题。
  虽然Spark正活跃在Cloudera、MapR、Hortonworks等众多知名大数据公司,但是如果Spark本身的这些缺陷得不到及时处理,将会严重影响 Spark的普及和发展。在本土大数据平台软件公司星环信息科技(上海)有限公司(以下简称"星环科技")推出一系列关于Spark的大数据平台产品之后,这些难题已能够迎刃而解。
  星环科技推出的交互式分析引擎名叫Inceptor,从下往上有三层架构,最下面是一个分布式缓存(Transwarp Holodesk),可建在内存或者SSD上,中间层是Apache Spark计算引擎层,最上层包括SQL’99和PL/SQL编译器、统计算法库和机器学习算法库,提供完整的R语言访问接口。
  星环:如何构建企业级Hadoop/Spark分析平台
  Transwarp Inceptor对Spark进行了大量的改进,具有高性能、稳定性好、功能丰富、易管理等特征,可以切实解决Spark本身存在的难题,具体而言,星环Inceptor具有以下几点优势:
  高性能
  首先,支持高性能Apache Spark作为缺省执行引擎,可比原生的Hadoop Map/Reduce快;其次,通过建立独立于Spark的分布式列式缓存层,可以有效防止GC的影响,消除Spark的性能波动,同时在列式缓存上实现索引机制,进一步提高了执行性能;再次,在SQL执行计划优化方面,实现了基于代价的优化器(cost based optimizer)以及多种优化策略,性能可以比原生Spark快数倍;最后通过全新的方法解决数据倾斜或者数据量过大的问题,使得处理超大数据量时也游刃有余。
  更强的SQL支持
  Inceptor提供ANSI SQL’99语法支持以及PL/SQL过程语言扩展,并且可以自动识别HiveQL、SQL’99和PL/SQL语法,在保持跟Hive兼容的同时提供更强大的SQL支持。由于现有的数据仓库应用大都基于SQL’99,而且国内客户大量使用PL/SQL,因此Inceptor可以支持复杂的数据仓库类分析应用,也使得从原有数据库系统迁移到Hadoop更为容易,可以帮助企业建立高速可扩展的数据仓库和数据集市。
  基于R 的数据挖掘与机器学习
  Inceptor中包含了专业用于数据挖掘的R语言执行引擎,并且扩展了R语言,支持多种分布式数据挖掘算法,包括统计算法和机器学习算法;也支持在 R 中调用SQL语句,通过Spark访问分布式内存数据。这些功能使得用户可以真正在全量数据上进行机器学习或数据挖掘,而再也不用使用采样的方法,精准度得到很大提高。
  多租户/动态集群创建/自由切换计算引擎
  YARN的引入使得统一资源管理成为可能,Inceptor缺省采用星环改进后的YARN,有效支持多个Spark或Map/Reduce集群,Inceptor的每一条SQL都可以通过简单的提示(hint)来指定执行引擎使用Spark或Map/Reduce。而通过YARN管理所有资源后,可以具备以下优势:
  (1)统一集群,统一的HDFS和YARN集群,多个计算引擎共存并且访问同一份数据,避免创建隔离的多个集群,减少数据拷贝或者远程访问,提高效率,也可降低维护成本。
  (2)动态部署,可以动态创建和销毁Spark集群,灵活部署业务。适合对非7x24不间断业务(例如周期性统计业务)的动态部署。
  (3)资源隔离,通过YARN的资源隔离和配额管理,可以避免使用同一个Spark集群使用单一调度算法时出现的计算资源争抢现象,保证每项业务都能顺利完成。星环科技的 YARN支持对计算资源和内存资源的管理能力,避免占用内存资源多的Spark或Map/Reduce集群之间争抢内存资源。
  (4)资源共享,在申请资源配额后,如果当前用户的资源紧张或受限,可以动态调配其他用户的闲置资源加入,当其他用户使用时再归还。
  高性价比
  Inceptor支持混合存储体系(内存/闪存/磁盘),Holodesk列式存储可以存放在速度较快的闪存SSD上或者更快的内存中。内存、SSD和机械硬盘的速度比是100:10:1,而同样容量的内存、SSD、硬盘的价格比也是100:10:1。采用为SSD优化的Inceptor之后,实际测试发现,采用SSD替代大容量昂贵的内存作为缓存,性能没有明显的下降,因此可以用同样的价格买到容量大10倍的SSD作为缓存,一方面可以提供跟纯内存缓存接近的性能,另一方面也可比纯内存数据库处理更大的数据。
  对于广大用户而言,在选择Spark及大数据软件时,高性能、高兼容性和高性价比的技术无疑是用户的最爱,而星环Spark不仅可以实现三者的有机结合,更在此基础上实现功能扩展,为用户提供更加全面优质的服务,从而更能打动用户的芳心。
  星环科技作为一家高科技大数据创业公司,致力于大数据基础软件的研发。星环科技目前掌握的企业级Hadoop和Spark核心技术在国内独树一帜,其产品Transwarp Data Hub (TDH)的整体架构及功能特性堪比硅谷同行,在业界居于领先水平,性能卓越,可处理从GB到PB级别的数据。星环科技的核心开发团队参与部署了国内最早的Hadoop集群,并在中国的电信、金融、交通、政府等领域的落地应用拥有丰富经验,是中国大数据核心技术企业化应用的开拓者和实践者。
  目前,星环科技正处于高速发展时期,相信在未来,随着星环Spark以及相关大数据基础软件的普及,整个大数据领域将迈向新的发展高度。
文章关键词:
&&|&&&&|&&&&|&&
您可通过新浪首页顶部 “”, 查看所有收藏过的文章。
,推荐效果更好!
看过本文的人还看过

我要回帖

更多关于 云平台架构设计 的文章

 

随机推荐