2分钟读懂Hadoop和Spark史记和汉书的异同同

后使用快捷导航没有帐号?
查看: 687|回复: 7
与 Hadoop 对比,如何看待 Spark 技术
金牌会员, 积分 2723, 距离下一级还需 277 积分
论坛徽章:33
最近公司邀请来王家林老师来做培训,其浮夸的授课方式略接受不了。其强烈推崇Spark技术,宣称Spark是大数据的未来,同时宣布了的死刑。
那么与Hadoop相比,Spark技术如何?现工业界大数据技术都在使用何种技术?
-----------补充------------
希望大家能将关注点放在Spark上。另Spark圈内应该会有人对此人有了解。此人在51CTO上有100期的课程,并号称7岁接触代码,现年28岁,2010年阅读完Android源码后,专注大数据。
王家林简介摘自百度百科
王家林:Spark亚太研究院院长和专家,中国目前移动互联网和云计算大数据集大成者。Android架构师、高级工程师、咨询顾问、培训专家;通晓Android、HTML5、Hadoop,迷恋英语播音和健美;致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案。
新手上路, 积分 28, 距离下一级还需 22 积分
论坛徽章:1
只能说,技术在不断的发展是好事
金牌会员, 积分 2723, 距离下一级还需 277 积分
论坛徽章:33
报一个spark 课程,hadoop 现在不让spark强
中级会员, 积分 233, 距离下一级还需 267 积分
论坛徽章:4
技术选择合适的,可用的就好了
新手上路, 积分 20, 距离下一级还需 30 积分
论坛徽章:1
至少现在spark还无法取代hadoop.
中级会员, 积分 208, 距离下一级还需 292 积分
论坛徽章:7
写的很好,很棒,不错
中级会员, 积分 208, 距离下一级还需 292 积分
论坛徽章:7
我觉得这篇帖子相当好。。。。
论坛徽章:24
外国那么多大牛,也没那么多头衔,此人又院长,又专家,显得浮夸,称号应该别人给的,有广告之嫌。
dataguru.cn All Right Reserved.
扫一扫加入本版微信群带你了解大数据Hadoop和Spark的异同【大讲台吧】_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0成为超级会员,使用一键签到本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:49贴子:
带你了解大数据Hadoop和Spark的异同收藏
  1、解决问题的层面不一样  首先,Hadoop和ApacheSpark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施:它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。  同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。  2、两者可合可分  Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外,还提供了叫做MapReduce的数据处理功能。所以这里我们完全可以抛开Spark,使用Hadoop自身的MapReduce来完成数据的处理。  相反,Spark也不是非要依附在Hadoop身上才能生存。但如上所述,毕竟它没有提供文件管理系统,所以,它必须和其他的分布式文件系统进行集成才能运作。这里我们可以选择Hadoop的HDFS,也可以选择其他的基于云的数据系统平台。但Spark默认来说还是被用在Hadoop上面的,毕竟,大家都认为它们的结合是最好的。  3、Spark数据处理速度秒杀MapReduce  Spark因为其处理数据的方式不一样,会比MapReduce快上很多。MapReduce是分步对数据进行处理的:”从集群中读取数据,进行一次处理,将结果写到集群,从集群中读取更新后的数据,进行下一次的处理,将结果写到集群,等等…“BoozAllenHamilton的数据科学家KirkBorne如此解析。  反观Spark,它会在内存中以接近“实时”的时间完成所有的数据分析:“从集群中读取数据,完成所有必须的分析处理,将结果写回集群,完成,”Born说道。Spark的批处理速度比MapReduce快近10倍,内存中的数据分析速度则快近100倍。  如果需要处理的数据和结果需求大部分情况下是静态的,且你也有耐心等待批处理的完成的话,MapReduce的处理方式也是完全可以接受的。  但如果你需要对流数据进行分析,比如那些来自于工厂的传感器收集回来的数据,又或者说你的应用是需要多重数据处理的,那么你也许更应该使用Spark进行处理。  大部分机器学习算法都是需要多重数据处理的。此外,通常会用到Spark的应用场景有以下方面:实时的市场活动,在线产品推荐,网络安全分析,机器日记监控等。  4、灾难恢复  两者的灾难恢复方式迥异,但是都很不错。因为Hadoop将每次处理后的数据都写入到磁盘上,所以其天生就能很有弹性的对系统错误进行处理。  Spark的数据对象存储在分布于数据集群中的叫做弹性分布式数据集(RDD:ResilientDistributedDataset)中。这些数据对象既可以放在内存,也可以放在磁盘,所以RDD同样也可以提供完成的灾难恢复功能。  以上就是关于Hadoop和Spark的异同详细介绍,希望可以帮助到你,最后想要了解更多关于Hadoop和Spark的新闻资讯,请关注大讲台官网、微信等平台,大讲台IT职业在线学习教育平台为您提供权威的大数据Spark培训课程和视频教程系统,通过大讲台金牌讲师在线录制的第一套自适应Spark在线视频课程系统,让你快速掌握Spark从入门到精通大数据开发实战技能。
登录百度帐号2分钟读懂Hadoop和Spark的异同_百度知道
2分钟读懂Hadoop和Spark的异同
我有更好的答案
10秒钟读懂吧。Hadoop 是离线计算之王。 中间计算的数据可以存储,这样如果失败了还能在错误的地方继续运行。劣势是处理小量数据不够快。 一个 job 光准备时间就要十几秒。Spark 是速度快、机器学习优势、内存计算优势。 劣势是新手容易搞死服务器。Hadoop 3. 发新闻称 将比 Spark 快 10 倍以上。
中国IT职业教育领先品牌
主营:教育培训-JAVA培训-大数据培训-Html5培训-UI培训-python培训等
为您推荐:
其他类似问题
您可能关注的内容
hadoop的相关知识
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。2分钟读懂Hadoop和Spark的异同
谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。
解决问题的层面不一样
首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。
同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。
两者可合可分
Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外,还提供了叫做MapReduce的数据处理功能。所以这里我们完全可以抛开Spark,使用Hadoop自身的MapReduce来完成数据的处理。
相反,Spark也不是非要依附在Hadoop身上才能生存。但如上所述,毕竟它没有提供文件管理系统,所以,它必须和其他的分布式文件系统进行集成才能运作。这里我们可以选择Hadoop的HDFS,也可以选择其他的基于云的数据系统平台。但Spark默认来说还是被用在Hadoop上面的,毕竟,大家都认为它们的结合是最好的。
以下是从网上摘录的对MapReduce的最简洁明了的解析:
我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。
现在我们到一起,把所有人的统计数加在一起。这就是“Reduce”。
Spark数据处理速度秒杀MapReduce
Spark因为其处理数据的方式不一样,会比MapReduce快上很多。MapReduce是分步对数据进行处理的: ”从集群中读取数据,进行一次处理,将结果写到集群,从集群中读取更新后的数据,进行下一次的处理,将结果写到集群,等等…“ Booz Allen Hamilton的数据科学家Kirk Borne如此解析。
反观Spark,它会在内存中以接近“实时”的时间完成所有的数据分析:“从集群中读取数据,完成所有必须的分析处理,将结果写回集群,完成,” Born说道。Spark的批处理速度比MapReduce快近10倍,内存中的数据分析速度则快近100倍。
如果需要处理的数据和结果需求大部分情况下是静态的,且你也有耐心等待批处理的完成的话,MapReduce的处理方式也是完全可以接受的。
但如果你需要对流数据进行分析,比如那些来自于工厂的传感器收集回来的数据,又或者说你的应用是需要多重数据处理的,那么你也许更应该使用Spark进行处理。
大部分机器学习算法都是需要多重数据处理的。此外,通常会用到Spark的应用场景有以下方面:实时的市场活动,在线产品推荐,网络安全分析,机器日记监控等。
两者的灾难恢复方式迥异,但是都很不错。因为Hadoop将每次处理后的数据都写入到磁盘上,所以其天生就能很有弹性的对系统错误进行处理。
Spark的数据对象存储在分布于数据集群中的叫做弹性分布式数据集(RDD: Resilient Distributed Dataset)中。“这些数据对象既可以放在内存,也可以放在磁盘,所以RDD同样也可以提供完成的灾难恢复功能,”Borne指出。
责任编辑:
声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
今日搜狐热点2分钟读懂大数据框架Hadoop和Spark的异同 - 简书
2分钟读懂大数据框架Hadoop和Spark的异同
谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。
解决问题的层面不一样
首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。
同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。
两者可合可分
Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外,还提供了叫做MapReduce的数据处理功能。所以这里我们完全可以抛开Spark,使用Hadoop自身的MapReduce来完成数据的处理。
相反,Spark也不是非要依附在Hadoop身上才能生存。但如上所述,毕竟它没有提供文件管理系统,所以,它必须和其他的分布式文件系统进行集成才能运作。这里我们可以选择Hadoop的HDFS,也可以选择其他的基于云的数据系统平台。但Spark默认来说还是被用在Hadoop上面的,毕竟,大家都认为它们的结合是最好的。
以下是天地会珠海分舵从网上摘录的对MapReduce的最简洁明了的解析:
我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。
现在我们到一起,把所有人的统计数加在一起。这就是“Reduce”。
Spark数据处理速度秒杀MapReduce
Spark因为其处理数据的方式不一样,会比MapReduce快上很多。MapReduce是分步对数据进行处理的: ”从集群中读取数据,进行一次处理,将结果写到集群,从集群中读取更新后的数据,进行下一次的处理,将结果写到集群,等等…“ Booz Allen Hamilton的数据科学家Kirk Borne如此解析。
反观Spark,它会在内存中以接近“实时”的时间完成所有的数据分析:“从集群中读取数据,完成所有必须的分析处理,将结果写回集群,完成,” Born说道。Spark的批处理速度比MapReduce快近10倍,内存中的数据分析速度则快近100倍。
如果需要处理的数据和结果需求大部分情况下是静态的,且你也有耐心等待批处理的完成的话,MapReduce的处理方式也是完全可以接受的。
但如果你需要对流数据进行分析,比如那些来自于工厂的传感器收集回来的数据,又或者说你的应用是需要多重数据处理的,那么你也许更应该使用Spark进行处理。
大部分机器学习算法都是需要多重数据处理的。此外,通常会用到Spark的应用场景有以下方面:实时的市场活动,在线产品推荐,网络安全分析,机器日记监控等。
两者的灾难恢复方式迥异,但是都很不错。因为Hadoop将每次处理后的数据都写入到磁盘上,所以其天生就能很有弹性的对系统错误进行处理。
Spark的数据对象存储在分布于数据集群中的叫做弹性分布式数据集(RDD: Resilient Distributed Dataset)中。“这些数据对象既可以放在内存,也可以放在磁盘,所以RDD同样也可以提供完成的灾难恢复功能,”Borne指出。
注:如果您喜欢本文的话,欢迎关注天地会珠海分舵以及专题《》 本文由天地会珠海分舵编译自。转载请自觉。
关注产品 · 创业 · 创意 · 科技
公众号:techgogogo
个人微信:zhubaitian1
www.techgogogo.com
//我所经历的大数据平台发展史(三):互联网时代 o 上篇http://www.infoq.com/cn/articles/the-development-history-of-big-data-platform-paet02 编者按:本文是松子(李博源)的大数据平台发展史...
Spark RDD(Resilient Distributed Datasets)论文 概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD 抽象 2.2 Spark 编程接口 2.2.1 例子 – 监控日志数据挖...
Spark RDD(Resilient Distributed Datasets)论文 概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD 抽象 2.2 Spark 编程接口 2.2.1 例子 – 监控日志数据挖...
编辑:于占胜 组别:研0组 【嵌牛导语】本文将介绍并对比5种主流大数据框架,助你更深层次了解这些框架,从而在项目中更好地使用它们。 【嵌牛鼻子】
ApacheHadoop
Apache Storm
Apache Sa...
2分钟读懂Hadoop和Spark的异同 反观Spark,它会在内存中以接近“实时”的时间完成所有的数据分析:“从集群中读取数据,完成所有必须的分析处理,将结果写回集群,完成,” Born说道。Spark的批处理速度比MapReduce快近10倍,内存中的数据分析速度则快近...
我叫伊合帕莱姆·如则,是一名维吾尔族青年,今年6月毕业于浙江省宁波市北仑中学内地新疆高中班,高考以508分的成绩被首都师范大学数学与应用数学专业录取。 作为内高班的学生,我远离家乡在外求学,每年只有暑假两个月的时间能回家,我的家乡在喀什地区岳普湖县色也克乡阿克提坎村。今年暑...
不知道大家有没有遇到过这些问题。 总是勤勤恳恳工作,却发现自己的薪水还是不够花;面对自己喜欢的东西,想买却买不起;有很多想做的事情,却因为没有足够的钱而没办法走出第一步…… 其实,以上问题都可以靠理财得到很好的解决。理财就是理生活。理财不仅仅是对财务的整理,甚至是对人生的整...
说实话,在敲打屏幕的这一刻我并不知道我要写什么,凭感觉吧,想到什么写什么。 现在网络上的东西似乎呈现了两条极端方向线,一种应该就是教你这么做人的鸡汤,一种则是无中生有的哀怨,前者被大量转发,似乎你转了之后你就能学到什么似的,然而道理大家都懂,在做的真没几个。而后者吧,大多数...
Android中的线程 线程,在Android中是非常重要的,主线程处理UI界面,子线程处理耗时操作。如果在主线程中处理耗时操作就会发生ANR,这对一个程序来说是非常致命的,因此耗时操作必须放在子线程中去执行。 在Android系统中,除了Thread外,还有很多Async...
Android中的动画 Android框架为开发者提供了三种类型动画机制: Property Animation - 属性动画 View Animation - 补间动画 Drawable Animation - 帧动画 Transition Animation 在新版本中...

我要回帖

更多关于 春节和圣诞节的异同 的文章

 

随机推荐