Hadoop在中小型企业如何应用电子商务有应用前景吗

hadoop和python哪个前景好? - 知乎有问题,上知乎。知乎作为中文互联网最大的知识分享平台,以「知识连接一切」为愿景,致力于构建一个人人都可以便捷接入的知识分享网络,让人们便捷地与世界分享知识、经验和见解,发现更大的世界。5被浏览<strong class="NumberBoard-itemValue" title="分享邀请回答赞同 添加评论分享收藏感谢收起苹果/安卓/wp
积分 7630, 距离下一级还需 2550 积分
权限: 自定义头衔, 签名中使用图片, 隐身, 设置帖子权限, 设置回复可见
道具: 涂鸦板, 彩虹炫, 雷达卡, 热点灯, 显身卡, 匿名卡, 金钱卡, 抢沙发, 变色卡, 提升卡, 沉默卡, 千斤顶下一级可获得
权限: 签名中使用代码
购买后可立即获得
权限: 隐身
道具: 金钱卡, 变色卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
开心签到天数: 7 天连续签到: 1 天[LV.3]偶尔看看II
本帖最后由 浪子彦青 于
19:14 编辑
要被淘汰了吗_hadoop就业前景_hadoop与spark的区别
我经常会从客户或者网上听到唱衰hadoop的声音,尤其是最近几年。那么hadoop与spark到底有什么区别?关于spark有哪些被我们神化了,哪些又是真实的,以及它在“大数据”的生态系统中又是怎样的?说实话,其实我把这个问题作为标题是有问题的,但是我们经常会这样问。Hadoop并不是一个单独的产品而是一个生态系统,而spark也是一样的。下面让我们来一个一个解释。目前Hadoop生态系统主要包括:HDFS —Hadoop分布式文件系统。它是一个分布式的、面向块的、不可更新的、高度伸缩性的、可运行在集群中普通硬盘上的文件系统。此外,HDFS还是一个独 立的工具,它可以独立于Hadoop生态系统中其他组件而运行(但是如果我们想要使HDFS高可用时,还需要依赖zookeeper和日志管理器,但这又 是另外一码事了)。MapReduce框架—这是一个基本的在集群中一组标准硬件上执行的分布式计算框架。我们没必要一定在HDFS张使用它—因为文件系统是可插拔的;同样的,我们也没必要一定在yarn中使用它,因为资源管理器是可插拔的:例如我们可以用Mesos来替换它。
YARN—Hadoop集群中默认的资源管理器。但是我们可以在集群中不使用yarn,而是将我们的mr(译注:map/reduce)任务运行在Mesos之上;或者仅仅在集群中运行不需要依赖yarn的hbase。Hive —Hive是一个构建在MapReduce框架之上的类sql查询引擎,它可以将hiveQL语句转换为一系列运行在集群中的mapReduce任务。此 外,hdfs也不是唯一的存储系统,也不一定非得使用MapReduce框架,比如在这里我么可以替换为Tez。Hbase —基于HDFS的键值对存储系统,为Hadoop提供了联机事务处理(OLTP)能力。Hbase仅仅依赖HDFS和但是Hbase 只能依赖于HDFS吗?不是的,Hbase除了可以运行在HDFS上之外,还可以运行在Tachyon(内存文件系统)、MapRFS、IBM GPFS以及其他一些框架之上。这里写图片描述就 这么多了。此外你可能还会想到storm可以处理数据流,但是它完全独立于hadoop,可以独立运行;你可能还会想到运行于MapReduce之上的机 器学习框架Mahout,但它在之前被社区关注的越来越少。下图为Mahout被反馈的问题(红色)和被解决的问题(绿色)趋势图:这里写图片描述下面我们来说说spark,它主要包含以下几个方面:Spark Core – 用于通用分布式数据处理的引擎。它不不依赖于任何其他组件,可以运行在任何商用服务器集群上。Spark Sql – 运行在Spark上的SQL查询语句,支持一系列SQL函数和HiveQL。但是还不是很成熟,所以不要在生产系统中使用;而HiveQL集成了需要的hive元数据和Hive相关的jar包。Spark Streaming – 基于spark的微批处理引擎,支持各种各样数据源的导入。唯一依赖的是Spark Core引擎。MLib – 构建在spark之上的机器学习库,支持一系列数据挖掘算法。
此 外我们这里还要讲到的是一个关于spark的重要误区—“spark是基于内存的技术”。它不是基于内存的技术;spark是一个管道式的执行引擎,而且 在shuffle的过程中会将数据写入磁盘(比如说,如果我们想针对某个字段做聚合操作)、如果内存不够的话也一样会内存溢出(但是内存可以调整)。因 此,spark之所以比MapReduce快主要是因为它是管道式处理方式而不是有些人说的“基于内存的优化”。当然,spark在内存中做了缓存来提高 性能,但这不是spark真正工作快的原因。 现在,我们再来完整比对一下:MapReduce 可以被Spark Core替换?是的,它会随着时间的推移被替代,而且这种替代是合理的。但是spark目前还不是特别成熟能完全替代MapReduce。此外,也没有人 会完全放弃MapReduce,除非所有依赖MapReduce的工具都有可替代方案。比如说,想要在pig上运行的脚本能在spark上执行还是有些工 作要做的。Hive 可以被Spark SQL替换?是的,这又是对的。但是我们需要理解的是Spark SQL对于spark本身来说还是比较年轻的,大概要年轻1.5倍。相对于比较成熟的Hive来说它只能算是玩具了吧,我将在一年半到两年之内再回头来看 Spark SQL.。如果我们还记得的话,两到三年前Impala就号称要终结Hive,但是截止到目前两种技术也还是共存状态,Impala并没有终结Hive。 在这里对于Spark SQL来说也是一样的。Storm可以被Spark Streaming替换? 是的,可以替换。只不过平心而论storm并不是Hadoop生态系统中的一员,因为它是完全独立的工具。他们的计算模型并不太形同,所以我不认为storm会消失,反而仍会作为一个商业产品。Mahout可以被MLib替换?公平的讲,Machout已经失去了市场,而且从过去的几年来看它正在快速失去市场。对于这个工具,我们可以说这里是Spark真正可以替换Hadoop生态系统中的地方。 因此,总的来说,这篇文章的结论是:不 要被大数据供应商的包装所愚弄。他们大量推进的是市场而不是最终的真理。Hadoop最开始是被设计为可扩展的框架,而且其中很多部分是可替换的:可以将 HDFS替换为Tachyon,可以将YARN替换为Mesos,可以将MapReduce替换为Tez并且在Tez之上可以运行Hive。这将会是 Hadoop技术栈的可选方案或者完全替代方案?倘若我们放弃的MR(MapReduce)而使用Tez,那么它还会是Hadoop吗?Spark不能为我们提供完整的技术栈。它允许我们将它的功能集成到我们的Hadoop集群中并且从中获益,而不用完全脱离我们老的集群方案。Spark还不够成熟。我认为在过三到四年我们就不会再叫“Hadoop栈”而是叫它“大数据栈”或者类似的称呼。因为在栈中我们有很广泛的选择可以选出不同的开源产品来组合在一起形成一个单独的技术栈使用。
总评分:&经验 + 100&
学术水平 + 1&
本帖被以下文库推荐
& |主题: 1059, 订阅: 96
有多少大公司用spark?
说的不错,感谢分享
感谢分享!!
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向,请联系(010-);
邮箱:service@pinggu.org
投诉或不良信息处理:(010-)
论坛法律顾问:王进律师Hadoop未来的前景如何【hadoop吧】_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0可签7级以上的吧50个
本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:12,265贴子:
Hadoop未来的前景如何
Hadoop技术未来发展前景如何 Hadoop的未来如何,一个重要的影响因素是技术的更新和进步。从最近几年Hadoop和其他大数据相关技术的发展,我们可以看出一些端倪。 数据存储 – 前景乐观 从文件存储技术来看,HDFS稳定而健壮,已然是海量文件存储的实际标准。当然也有一些分布式文件存储技术值得关注,如GlusterFS, Tachyon等等。但对HDFS尚不构成实质性的威胁。 相比文件存储的一家独大,结构化数据的存储,目前呈现出的是百花齐放的局面。我们之前提到过,在Hadoop生态系统中,结构化数据存储最成熟的实现是HBase。你可以把它想象成更灵活,可扩展性更强的MySQL。相比其他NoSQL数据库如MongoDB和Cassandra的风风火火,HBase相对低调。但个人认为HBase适用的范围更广,前景依然十分乐观。对于NoSQL数据库,就不展开讨论了,有兴趣的可以参考NoSQL精粹一书。 数据处理 – 面临挑战 从数据处理来看,MapReduce已不再热门。最本质的原因是MapReduce的模型过于简单。其后果是使得编程十分困难。一个简单的word count程序也需要编写很多MapReduce代码。虽然有Pig和Cascade等等更高层语言工具的支持,但MapReduce编程总是一件头疼的事情。另外,简单地模型使得特定数据处理的性能优化十分困难。特别是像机器学习这样需要反复多遍处理数据的应用,文件读写成为瓶颈。目前,Spark以其简单高效的特性,大有取代MapReduce,成为通用数据处理引擎之势。当然,Hadoop自己也推出了一些新的数据处理引擎,如MRv2(YARN)、Tez,但未来恐怕还是Spark的。 资源调配 – 充满机遇 老的MapReduce 的另一个问题是它的资源配给机制存在性能缺陷。为从根本上解决旧 MapReduce 框架的性能瓶颈,从 0.23.0 版本开始,Hadoop 的 MapReduce 框架完全重构。新的 Hadoop MapReduce 框架命名为 MapReduceV2 或者叫 YARN。 虽然YARN是为了MapReduce而生的,但是它实际上也是一个独立的资源管理框架,所以理论上YARN上可以运行任何分布式应用,YARN只是配给CPU,内存等资源。实际上,Spark,Storm等非Hadoop系的应用都支持在YARN的框架中运行。这使得YARN成为Hadoop“招安”其他大数据应用成为可能。当然,YARN也不是稳坐泰山,Mesos是一个不可忽视的竞争者,Mesosphere很快就要发布他们的数据中心操作系统,看看它的Demo就知道未来资源调配是这么回事了。 从Hadoop对文件存储和资源调配支持的发展趋势,我们可以想象,未来Hadoop应该像今天操作系统一样,成为更底层的基础设施。 结语 Hadoop作为大数据的平台和生态系统,已经过了疯涨期,步入稳步理性增长的阶段。未来,和其他技术一样,面临着自身新陈代谢和周遭新技术的挑战。开源社区能够繁荣的不二法门是有更好的程序,更多人使用,更多人贡献,如此良性循环。希望Hadoop的持续繁荣,可以使各个领域的中小企业也能够轻松愉快地处理海量的数据。
贴吧热议榜
使用签名档&&
保存至快速回贴BOSS直聘验证码
为了您的账号安全,我们需要在执行操作之前验证您的身份,请输入验证码。hadoop学习路线图市场前景t怎么样?_百度知道
hadoop学习路线图市场前景t怎么样?
&#xe6b9;答题抽奖
首次认真答题后
即可获得3次抽奖机会,100%中奖。
君临天_上知道合伙人
擅长:暂未定制
我是在魔据学的,说实话其实大数据本身就是有点难度的,需要慢慢学一段时间理解了就好了,这是我得到的学习经验,希望对你有帮助。这方面人才短缺,有前景。
为你推荐:
其他类似问题
您可能关注的内容
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。

我要回帖

更多关于 管理会计在中小型企业的应用 的文章

 

随机推荐