Hadoop在众多大数据行业和区块链科研领域应用中的地位

好吧我承认已经有四年多没有更新博客了。。。。
在这四年中发生了很多事情,换了工作,换了工作的方向。在工作的第一年的时候接触机器学习,从那之后的一年非常狂热的学习机器学习的相关技术,也写了一些自己的理解和感悟。今天大概看了一下这个博客的总体阅读人数已经有70多万了,印象中之前还只有十多二十万。很高兴这些文章能够帮助你更好的理解一些机器学习相关的基础知识,非常感谢各位读者和爬虫机器人(:-p)的支持!
后来个人选择将工作的方向从机器学习换到了Hadoop相关领域,中间有很多感悟我想之后再单独写一写。好吧不废话了正文开始:
*(版权声明:本文由leftnoteasy发布于 , 本文可以部分或者全部的被引用,但请注明出处,可以联系wheeleast (at) gmail.com, 也可以加我微博:
这篇正文是我对知乎问题(, 怎么看待Hadoop Summit 2016 和 Spark summit 2016?) 的回答,发布在此博客的时候稍有修改。
上周参加了在硅谷圣何塞举行的的Hadoop Summit 2016 (Hadoop 峰会),说说自己的感受(跟我的雇主无关,仅代表个人观点)。
链接:今年Hadoop Summit的日程表:。
另外今年的Summit庆祝了Hadoop项目成立十周年。从参会人数来说,今年达到了创纪录的5000人,对比去年的4000人增长了25%,这对于一个已经十年的项目来说非常不容易。
看到的一些行业趋势:
1)Hadoop及其生态圈(包括Spark等等)在各行各业落地并且得到广泛的应用。
目前在美国,无论行业是IT,金融相关(包括银行保险),电信,制造业,还是餐饮,百货零售都已经广泛的用上了Hadoop。看了一些有意思的演讲,比如说
Progressive(美国最大的车保公司之一)通过实时采集用户驾驶的数据(比如说加、减速行为;车辆经过的路线等等)来决定是否需要改变用户的车保价格。可以参考一篇老一点的文章:
福特公司也有一个类似的演讲,通过采集汽车里面的设置的传感器,实时反馈给服务端来优化驾驶的体验。
对于这些非IT企业,利用Hadoop生态圈里面的套件能够实现超大的数据处理规模(比如说福特汽车总共产生的数据可以达到一天TB级别),实时性(信用卡反欺诈需要在秒以内返回结果),丰富的分析手段(SQL、机器学习等)。这些新的数据分析的手段能够实实在在的产生商业价值,比如说只要保险公司能够降低1%的风险,产生的利润就非常可观了。
相对于去年来说,这三个话题的曝光率大大提高。今年总共有160多场演讲,其中物联网就有近20场演讲,机器学习有10多场演讲,实时有近10场演讲。
这三个话题其实互相关联,比如说物联网通过传感器采集了N多的数据(飞机引擎能够每小时产生35TB的数据,还有比如上面提到的福特汽车),这些数据需要立刻决定保留或者丢弃,对于保留的那部分的数据也要能够很快的做出决定。实时起到了很大的作用。在这次的某一个演讲中(忘了是哪家公司了),需要采集飞机上的雷达数据来预测天气是否危险,如果不能做到实时那几乎就是草菅人命了。
对于这种大规模的数据只用传统的SQL进行数据处理是远远不够的,特别是一些非结构化的数据(比如说雷达云图)。那么很多的机器学习的方法就能够排上用场了。这三个方向一定会在未来更火的。
关于Hadoop(YARN/HDFS)项目的趋势
对于Hadoop项目本身是个人工作也是我关注得最多的方向,这里也总结一下。
继续往易用方向发展
关于易用主要是两个方面,a. 方便安装部署, b. 方便运维。对于安装部署来说这几年的一些工具已经可以把问题解决得很好了,比如说Apache Ambari。对于运维来说则在今年涌现了很多的新的亮点,比如说来自Hortonworks的Service Asembly,Service Asembly也就是服务的组合,举个例子来说一个数据服务需要安装ZooKeeper、Kafka、HBase、Spark,并且需要让他们工作在一起。传统的方式是分别部署这些项目并且手动的把他们互相配置起来。现在可以通过Docker container加上预先写好的配置文件模板让这些服务一次性的在YARN上面启动和关闭。
YARN更好的支持长时间服务(Long running service, LRS)
相对于普通的mapreduce、spark程序,长时间服务需要跑几天甚至几个月,YARN对于LRS的支持在近一年内有很大的进展。一些新完成、正在开发中的功能有类似于
DNS(每个container有自己的地址, YARN-4757)
Container自动重启(YARN-4725)
Container重复利用(allocation reuse, YARN-4726)
还有我做的/正在做的几个功能:
动态改变运行中Container的资源(Resizing running container, YARN-1197)
方便的让程序在每个节点上跑一份(Affinity/Anti-affinity, YARN-1042)
以及资源抢占的一些改进 (YARN-4108/YARN-4390)
这些功能会大大的帮助在YARN上面跑LRS。
更大更快更强
Hadoop从来没有停止过性能上的优化,今年一些相关的改进:
YARN RM Federation: 支持超大的YARN集群,据称微软已经通过这个支持了5万节点的YARN集群
下一代的YARN Timeline server (YARN-2928), 这个可以很好的把YARN集群里面的各种信息以及应用程序的信息存储、关联起来。
HDFS Tiered Storage: 更好的在HDFS中支持管理不同的文件系统(比如说内存、SSD、本地磁盘、云存储)
YARN resource overcommmitment (YARN-1011), 这个可以根据资源的实际使用情况来觉得是否可以多分配一些container来得到更好的资源利用率。
(杂)总结和建议
一些个人的建议希望对你有帮助:
如果你的公司的足够多的数据,看看能不能用Hadoop生态圈的项目(不管是Hive还是Spark)进行优化,传统行业会一个一个被大数据公司占据掉,比如说阿里占据了零售业、金融业,赶不上这趟车就晚了!
如果你是初学者并且希望学大数据相关的技术,流行的开源项目是很好的选择。如果你想学Hadoop的话记得要学新一点的版本比如说2.7.x,1.x已经淘汰了。
如果你对贡献开源项目有兴趣,可以考虑考虑YARN,里面能做的东西还很多,并且社区很友好。
阅读(...) 评论()大数据领域开源技术 除了Hadoop你还知道哪些
众所周知,大数据正在以惊人的速度增长,几乎触及各行各业,许多组织都被迫寻找新的创造性方法来管理和控制如此庞大的数据,当然这么做的目的不只是管理和控制数据,而是要分析和挖掘其中的价值,来促进业务的发展。
想要深入发展大数据,闭门造车是不可能的,共通共融是现在趋势,因此,开源让越来越多的项目可以直接采用大数据技术。如今,从小型初创企业到行业巨头,各种规模的供应商都在使用开源来处理大数据和运行预测分析。借助开源与云计算技术,新兴公司甚至在很多方面都可以与大厂商抗衡。
开源大数据的优势不言而喻,但在众多的开源工具中该如何抉择?本文中大数据领域的十个巨头,将有助于你更深入掌握大数据这个行业的发展形势。
Hadoop&&高效、可靠、可伸缩,能够为你的数据存储项目提供所需的YARN、HDFS和基础架构,并且运行主要的大数据服务和应用程序。
Spark&&使用简单、支持所有重要的大数据语言(Scala、Python、Java、R)。拥有强大的生态系统,成长迅速,对
microbatching/batching/SQL支持简单。Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
NiFi&&Apache
NiFi是由美国国家安全局(NSA)贡献给Apache基金会的开源项目,其设计目标是自动化系统间的数据流。基于其工作流式的编程理念,NiFi非常易于使用、强大、可靠、高可配置。两个最重要的特性是其强大的用户界面和良好的数据回溯工具。堪称大数据工具箱里的瑞士军刀。
Apache Hive 2.1&&Hive是建立在 Hadoop
上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop
中的大规模数据的机制。随着最新版本的发布,性能和功能都得到了全面提升,Hive已成为SQL在大数据上的最佳解决方案。
Kafka&&Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模网站中的所有动作流数据。它已成为大数据系统在异步和分布式消息之间的最佳选择。从Spark到NiFi再到第三方插件工具以至于Java到Scala,它都提供了强大的粘合作用。
Phoenix&是HBase的SQL驱动。目前大量的公司采用它,并扩大其规模。HDFS支持的NoSQL能够很好地集成所有工具。Phoenix查询引擎会将SQL查询转换为一个或多个HBase
scan,并编排执行以生成标准的JDBC结果集。
Zeppelin&&Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括
Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。
Sparkling Water&&H2O填补了Spark&s Machine Learning的缺口,它可以满足你所有的机器学习。
Beam&&在Java中提供统一的数据进程管道开发,并且能够很好地支持Spark和Flink。提供很多在线框架,开发者无需学习太多框架。
Stanford CoreNLP&&自然语言处理拥有巨大的增长空间,斯坦福正在努力增进他们的框架。
官方微博/微信
每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。
↑扫描二维码
想在手机上看科技资讯和科技八卦吗?想第一时间看独家爆料和深度报道吗?请关注TechWeb官方微信公众帐号:1.用手机扫左侧二维码;2.在添加朋友里,搜索关注TechWeb。
Copyright (C)
All rights reserved. 京ICP证060517号/京ICP备号 京公网安备76号
TechWeb公众号
机情秀公众号大数据的未来:英特尔与Cloudera让Hadoop平民化 - TechTarget数据中心
大数据的未来:英特尔与Cloudera让Hadoop平民化
来源:TechTarget中国
在火爆的大数据领域,Hadoop显然是炙手可热的明星。有分析机构预测,到2020年,Hadoop的市场价值会超过500亿美金。这个出现8年左右的技术以低廉的存储与快速的处理能力迅速渗透进各种大中小型企业。尤其是在大数据管理领域,Hadoop当仁不让成为首选。
英特尔料理大数据之道
作为业界顶级的芯片提供商,英特尔对大数据的钟爱表露无遗,在两年前发布了Apache Hadoop软件分发版,并成功应用于电信、交通,金融与医疗等行业。今年3月又宣布以7.4亿美元收购大数据软件解决方案提供商Cloudera的18%股份,并在五分月将双方优势融合在Cloudera分发版的Hadoop中,进一步优化大数据平台。与此同时,Cloudera于12月10日正式宣布在中国设立肯睿(上海)软件有限公司,携手英特尔加强技术方面的合作研发,一起扩展中国本地市场。
很多人认为关于大数据话题的讨论应该交给Cloudera这样的软件企业领衔,“但是解决大数据的问题也需要强大的计算力和基于开放架构的平台,而这些则是英特尔所擅长的,”英特尔中国研究院院长吴甘沙在近期举行的英特尔iTalk活动上表示,“英特尔的目标是让大数据说人话,并让相关应用尽快平民化。”
英特尔中国研究院院长吴甘沙
大数据如何说人话?它要能够提取人能够理解的价值,让数据的工具与人、数据科学家与行业专家,以及终端用户天人合一。大数据应用的平民化是指降低数据分析的门槛,把高级的数据分析功能平民化,使得它能够迈入主流的应用,使得它能够实现规模的经济效应。
英特尔的策略是提供强大的且能够进行软件定义的计算力,并在此基础上携手尽可能多的合作伙伴,打造出一个开放的,激励创新的大数据平台。具体而言,英特尔提出大数据的分析框架,最底层是开放架构基础设施,而且是可以实现软件定义计算、存储和网络的基础设施,把它们做成开放式的构建模块,使得整个行业进入大数据创新领域的门槛得以降低,让更多的创新者能够一起参与,一起构建标范性的解决方案,再把它变成可扩展的参考架构,使其能够被复制到每一个行业,每一家企业中去。
为此,英特尔对大数据的研发布局也作出了相应调整。之前,1-3年是由英特尔产品部门提供建议与技术,3-5年由英特尔研究院开发布局,然后由生态系统合作研发,5-8年是与大学合作研究。“IT的趋势变化很快,”吴甘沙说,“我们将研发周期进一步缩短,与大学的合作研究提前进行以尽快将技术推向市场。”英特尔过去几年主要聚焦在三个领域:一是数据与机器的关系,二是人与数据的关系,三是数据与数据的关系。
在开放式协作创新的框架下,英特尔加入安全流通以及定价研究。新近的研究平台是“数据咖啡馆”,理念是希望让不同领域不同公司的数据集合在一起产生新的价值。吴甘沙举了个例子,两个电商对于客户的画像是非常片面的,如果能够把他们的数据在数据咖啡馆里进行融合,他们就能够获得对客户完整的刻画,这里面很重要的一点是叫做相逢但不相识。这两家电商愿意把数据融合,但是不愿意对方能够看到自己的数据,如何能够在不相识的这样一种前提下让他们相逢,让他们能够做数据的分析,这一定程度上解决了数据隐私安全的问题。
英特尔架构的大数据技术在智慧交通与金融等行业已经获得成功应用。国内某城市的交通监控系统产生的数据量以TB级计算,使用至强+Hadoop平台可以在1秒以内从24亿条过车数据中查到某辆车的精确结果与行车轨迹。
Hadoop光芒耀眼
一份来自《2014年数据库技术现状调查》的数据显示,13%的受访者已经将Hadoop应用于产品生产和测试。随着数据的猛增,企业对数据分析和存储能力的需求必然大幅上升。相对于传统数据库和数据仓库技术,Hadoop的优势在于将数据分析和存储平民化。
虽然Hadoop的应用已经很广泛,但普及仍然需要一段时间。一是Hadoop起步很晚,很多工具只发展了三四年,所以成熟度还不够。其次是现在还没有图形界面,不懂技术的人无法成为Hadoop用户,因为很多工作还是在命令层面完成的。此外,治理没有结构的数据几乎是不可能的。
Hadoop之父、Apache Hadoop社区的发起者和领导者,现任Cloudera公司首席架构师的Doug Cutting告诉TechTarget中国:“Hadoop的技术历史是比较短,面临不成熟的问题。但是每年有越来越多的人与企业在使用该技术,易用性越来越好。我们现在处在发展过程中,还有空间提升。”
Cloudera公司首席架构师的Doug Cutting
SQL可以在Hadoop上很好运行,有很多现成的工具可用,采用的门槛并不高。Doug说:“Cloudera这样分布的模式是很容易的,你可以在几分钟之内完成。所以如果你想在开源项目当中把所有的事情都做完,那可能会比较难。”
Cloudera公司副总裁苗凯翔表示,Hadoop有几个特点,一个是开源,二是代表未来新的分布式架构,三是复杂性。“在中国很多人没有完全了解Hadoop,认为开源就完全可以自己搞定,其实不现实。所以Cloudera的目的就是帮助用户轻松使用Hadoop。”
Cloudera公司副总裁苗凯翔
吴甘沙补充,虽然Hadoop的管理和使用还没有达到完美,但还是能够帮助我们更容易地处理更大量的数据。Hadoop本身是一个有高度包容性的生态系统,如果越过它直接去开发软件栈的话,是不科学的做法。
物联网作为IT发展的下一个技术热点,会成为变革IT的新力量。传统的数据库技术很难应对大量的传感器数据,而Hadoop将脱颖而出,承担更多的存储和分析功能。同时,对Hadoop的分析能力与安全性也提出了更高的要求。
对于大数据未来的发展,吴甘沙表示,以后会出现“大数据乘”,它的乘法效应会给我们现在的产业互联网带来更大的生机。
Doug说:“我希望越来越多的人使用的时候会觉得更加舒服,我们现在有很多的大学,他们都设计了相关的课程学习Hadoop,有很多人毕业了也知道怎么样来使用这样的工具。我们期望能通过Cloudera与英特尔的合作,为大家开发更多的大数据工具,实现更为丰富的功能,弥补各个创新项目的空缺和彼此间的差距,让用户能够更有效地整合和利用数据,并从中获益。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
TechTarget中国
与AI相关的深度学习和机器学习技术已经变成大数据圈常见的讨论话题。这一趋势对于数据管理者们来说是值得关注的,原 [&]
算法正在通过很多很不可思议的方法控制着我们的生活。但在没有透明度的情况下,我们很难知道机器学习算法所评估的结果是否公平……
现在,我们手里有数据,大量的数据。我们的存储中有区块、文件和对象。我们的数据库中有表、键值以及图形。还有越来越多涌进来的媒体、机器数据和事件流……
虽然我相信每个数据驱动的组织机构现在就应该开始规划,以避免最终导致数据不足的问题,但这一担忧只是新的大数据、物联网(IoT)世界中出现的很多潜在的数据问题之一……
企业级IT网站群
TechTarget中国 版权所有
All Rights Reserved, Copyright2018
TechTarget中国 版权所有
All Rights Reserved, Copyright2018
我们的网站使用Cookie和其他类似技术(Cookies)来增强您的体验和为您提供相关内容和广告。 使用我们的网站,您同意使用Cookies。 您可以随时更改设置。 .Hadoop的过去、现在和未来
作者:比特网
分类 : 比特网
  是目前分析领域中应用最广泛的一种分布式架构,而经过相当长时间的发展,Hadoop在功能上也越来越成熟。不过,在这个星球上,你找不到拥有11年Hadoop经验的人。因为目前在Hadoop领域经验最丰富的人是Doug Cutting,他在Hadoop方面拥有的经验是10年零7个月。而这位Doug Cutting正是Hadoop之父,Cloudera公司。
  作为处理海量最常用的方法,Hadoop的核心是Map和Reduce,也就是将一个庞大的任务进行,然后再将结果进行汇总。但经过10年发展,Hadoop的功能早已不是MapReduce这么简单。今天的Hadoop是分布式计算所涉及的计算、、文件系统、、、负载均衡、管理等一系列软件方法的合集。也正是由于其完整性和成熟度,今天的Hadoop虽然面临Spark等新兴技术的竞争,却仍是分布式计算领域不可或缺的基础和前提。
  作为一个开源项目,Hadoop目前仍在告诉发展、快速更新;作为开源软件服务的成功践行者,Cloudera的Hadoop发行版本正在成为越来越多在部署分布式计算系统时的首选。
  开源与商业,过去和未来;身为Hadoop之父、Cloudera公司首席架构师、Apache基金会前主席,Doug Cutting确实有话要说。
  Hadoop成功的基础
  Hadoop无疑是Apache基金会中最引人注目和最庞大的顶级项目之一。由于Hadoop定义了分布式计算的方方面面,因此日常的代码提交量也非常巨大。而在海量的代码见决定Hadoop未来走向的则是一个接近百人的评审委员会。
  Doug Cutting表示:评审委员会的成员来自各个领域,他们有IT企业中的技术达人、有相关学科的大学教授、有应用专家、更有单纯的技术爱好者。而在这个庞大的评审委员会中,所有成员均拥有“一票否决权”。虽然委员们各自有不同的背景甚至公司利益,但在委员会中,所有人的投票都是相当慎重的。投票所考虑的核心因素只有一个,那就是Hadoop未来的发展。而任何否决票的出现也必须给出技术上的合理解释。
  可以说,Hadoop与Apache基金会的其他项目一样,是一个“人人为我、我为人人”的开放环境。
  由于有越来越多Cloudera这样的开源企业源源不断的将自己的创新和Debug回馈给整个社区以及优秀的委员会机制,Hadoop在今天仍保持着相当旺盛的生命力。
  总结Hadoop过去的成功无非两点:一是从技术上开创了分布式计算时代,二是Apache基金会和Hadoop项目开放、合作、共享的管理理念。
  Hadoop如何保持成功
  任何一项技术都有其自身的发展路径。而作为一项非常有潜力的技术,Hadoop的未来发展的根基仍然要依靠广泛的应用基础。
  Cloudera是目前众多Hadoop发行版中最流行的一个,而Cloudera回馈社区的方式也并不只是简单的贡献代码。
  日前,Cloudera与清华大学联合发布BASE (Big Analytics Skill Enablement)倡议,旨在帮助清华大学数据科学研究院培养更多大数据分析专业人才,以填补国内大数据领域人才匮乏的现状。
  换句话说,Cloudera将帮助清华大学数据科学研究院培养更多Hadoop使用者和开发者。这样做一方面能够缓解国内大数据人才紧缺的现状,让大数据技术能够进入更多企业和行业;另一方面也为Hadoop项目在未来能够持续发展创造条件,毕竟对于一向技术来说,有人用才有未来。
  虽然清华大学是国内首家与Cloudera合作的高效,但从全球来看,Cloudera与教育界的合作已经开展多年。Doug Cutting表示:Cloudera已经与美国、欧洲、新加坡以及亚洲其他国家的高校和研究机构开展了广泛的合作,为他们提供全套免费课程,帮助大学生和研究人员能够更好的使用大数据技术。
  显然,Cloudera所执行的是一项相当长远的计划,这也说明Cloudera对Hadoop技术未来发展的信心。
  面对竞争,Hadoop的未来是怎样的?
  与商业领域一样,技术同样面临竞争。在很多人看来,Hadoop目前最大的竞争对手正是非常火爆的Spark。
  对此,Doug Cutting表示:Spark的确在MapReduce方面相比Hadoop拥有更大的性能优势。但Hadoop本身还包括分布式文件系统和任务调度、规划等众多功能;而这些则是Spark所没有的。
  作为开源技术,Hadoop和Spark都是化开发的。这也就意味着他们是可以相互融合,一起使用的。
  在未来,我们很可能看到Spark取代了Hadoop中的MapReduce模块,但分布式计算系统中的存储和调度等功能仍需要Hadoop来实现。
  换句话说,Hadoop与Spark之争实际是个伪命题,同样是大数据分析技术,他们的未来应该是融合和协作。
  大数据的故事才刚刚开始
  从行业整体的发展来看,人类只是刚刚意识到了大数据的重要性,而大数据技术本身的发展和完善仍需要相当长的时间。而对于像Cloudera这样在大数据领域取得先发优势的企业来说,无论是大数据还是开源技术,故事才知是刚刚开始。未来仍旧不可估量。
* 本文为ChinaByte比特网原创内容,版权所有,转载请注明出处和原文链接,未经授权请勿用于商业用途。
[ 责任编辑:张垞 ]
比特网 12:26:26
从《中国互联网+指数报告(2018)》看数字经济
“互联网+”的这些新变化,你知道吗?
软件信息化周刊
比特软件信息化周刊提供以数据库、操作系统和管理软件为重点的全面软件信息化产业热点、应用方案推荐、实用技巧分享等。以最新的软件资讯,最新的软件技巧,最新的软件与服务业内动态来为IT用户找到软捷径。
商务办公周刊
比特商务周刊是一个及行业资讯、深度分析、企业导购等为一体的综合性周刊。其中,与中国计量科学研究院合力打造的比特实验室可以为商业用户提供最权威的采购指南。是企业用户不可缺少的智选周刊!
比特网络周刊向企业网管员以及网络技术和产品使用者提供关于网络产业动态、技术热点、组网、建网、网络管理、网络运维等最新技术和实用技巧,帮助网管答疑解惑,成为网管好帮手。
服务器周刊
比特服务器周刊作为比特网的重点频道之一,主要关注x86服务器,RISC架构服务器以及高性能计算机行业的产品及发展动态。通过最独到的编辑观点和业界动态分析,让您第一时间了解服务器行业的趋势。
比特存储周刊长期以来,为读者提供企业存储领域高质量的原创内容,及时、全面的资讯、技术、方案以及案例文章,力求成为业界领先的存储媒体。比特存储周刊始终致力于用户的企业信息化建设、存储业务、数据保护与容灾构建以及数据管理部署等方面服务。
比特安全周刊通过专业的信息安全内容建设,为企业级用户打造最具商业价值的信息沟通平台,并为安全厂商提供多层面、多维度的媒体宣传手段。与其他同类网站信息安全内容相比,比特安全周刊运作模式更加独立,对信息安全界的动态新闻更新更快。
新闻中心热点推荐
新闻中心以独特视角精选一周内最具影响力的行业重大事件或圈内精彩故事,为企业级用户打造重点突出,可读性强,商业价值高的信息共享平台;同时为互联网、IT业界及通信厂商提供一条精准快捷,渗透力强,覆盖面广的媒体传播途径。
云计算周刊
比特云计算周刊关注云计算产业热点技术应用与趋势发展,全方位报道云计算领域最新动态。为用户与企业架设起沟通交流平台。包括IaaS、PaaS、SaaS各种不同的服务类型以及相关的安全与管理内容介绍。
CIO俱乐部周刊
比特CIO俱乐部周刊以大量高端CIO沙龙或专题研讨会以及对明星CIO的深入采访为依托,汇聚中国500强CIO的集体智慧。旨为中国杰出的CIO提供一个良好的互融互通 、促进交流的平台,并持续提供丰富的资讯和服务,探讨信息化建设,推动中国信息化发展引领CIO未来职业发展。
IT专家新闻邮件长期以来,以定向、分众、整合的商业模式,为企业IT专业人士以及IT系统采购决策者提供高质量的原创内容,包括IT新闻、评论、专家答疑、技巧和白皮书。此外,IT专家网还为读者提供包括咨询、社区、论坛、线下会议、读者沙龙等多种服务。
X周刊是一份IT人的技术娱乐周刊,给用户实时传递I最新T资讯、IT段子、技术技巧、畅销书籍,同时用户还能参与我们推荐的互动游戏,给广大的IT技术人士忙碌工作之余带来轻松休闲一刻。提供企业信息化整体解决方案
Hadoop教程:Hadoop和大数据在电信业里的典型应用
Hadoop教程:Hadoop和大数据在电信业里的典型应用
| 作者: |
10:17:05| 阅读 0次
概述:-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行。来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。
-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行。来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。
大会现场来自联通研究院移动互联网产品开发事业部主任王志军,为大家介绍了Hadoop和大数据在行业里的典型应用。
王主任主要从四个方面介绍了大数据的应用:第一方面源起,第二、电信运营商有哪些大数据,第三、中国联通建成的正在投入使用的大数据业务系统,第四、大数据应用的展望举几个简单的例子。
我们进入到移动互联网的时代,几乎每个人都有手机,现在在用手机的时候,更多的是个人的电脑,所做的工作除了做一些基本语音和短信的功能之外,绝大部分在手机上的工作是使用数据的流量,移动通讯从语音的时代跨越到数据的时代,运营商有很大的机会,同时运营商遇到了很多流量消费争议的问题。
目前流量消费争议已经跃升成为用户通讯服务投诉的首位。首先的问题是数据流量消费远不如语音消费清晰透明。语音消费的时候拨打一个电话,对方是谁,打了多长时间,这个时间是可以感知到的。运营商也可以语音通话的详单,如果是发短信,发了多少条短信大体是心中有数的。
流量消费首先是计费单位是KB,流量消费有一定的不确定性。刚才用手机刷了一下微博、用了一会儿微信,到底用了多少流量,他不知道到底如何进行计费。所以说很多用户基于这种了解,可能很多时候主观认为自己根本没有使用流量,或者是使用了比较小的流量,为什么有的时候会产生比较高额的流量的花费,这时用户运营商来告诉我,这个流量用到哪去了?上了什么网址、用了什么应用产生了什么流量,而不是简单说这个月用了1G或者是700兆的流量,传统的方式已经不满足现在用户的需要了。
现在3G客户数据流量争议占3G业务投诉是10%,现在整个比例是在逐渐的上升。个别的省份已经达到了20%的比例。目前中国联通每月打到10010客服流量上的投诉是近万起。同时很多用户也基于运营商无法提供上网记录的详单,提出了法律的诉讼。例如某iphone合约计划的用户,他是晚上凌晨到四点睡觉期间发生了巨额的流量,智能手机可能语音的应用、有很多自动更新的应用,这些应用并不是使用了才产生流量,这种情况下用户难以理解。运营商的计量设备无法提供了详单就提出了诉讼。运营商的计量设备就相当于家里的水表,现在是区分不出来做饭、冲马桶、洗衣服用了多少水。如果是给用户提供详单,我们就需要做准确的计量设备做流量的区分。
原来运营商如何提供详单的,主要是产生于网页设备,GGSN,之前产生话单的方式流量累计到一定的限度,或者是达到一定的时长,或者是现在已经把网络关闭掉了,这时候才是产生流量的话单,这主要是运营商做计费用的,不是给用户来去说明情况的。里面包含的信息可能有手机号码、上页流量是多少,下页流量是多少,或有话单的持续时长,但是不包含网址的信息和访问记录的信息。
这种情况下,中国联通的移动业务,此前有个客服部门的统计数据,每万元应收收入中因无法提供上网记录详单的数据,造成的投诉和退费赔付是60块钱。GGSN不光是中国联通在用,来自爱立信、华为、中兴、诺基亚都在使用,这种成熟的设备,出现偏差的概率是很小了,绝大部分的赔付是运营商说不清楚,用户有投诉,为了避免争议扩大化,运营商是采用了赔付与和解的方式来处理。
由此可见提供用户上网记录详单,成为了互联网透明健康环境的关键的因素,这是运营商希望能够做到的事情。
上网记录是典型的大数据
例如,每个用户,可能每月的通话记录是几百、几千条,上网的记录绝对不是这个数量级,可能是几万,用的量大可能是几十万条上网数据。例如用手机访问新浪网的首页大致是产生20多条记录,包括手机发起,DS的查询,包括网页中每个元素的下载,其实对网络来说都是独立的请求这样都会产生一条记录。如果用IPAD,新浪网的首页会产生40条记录,如果看了IPAD里的新闻,过来会产生180条记录。
例如说访问淘宝的触摸平板也会产生6条记录,此外还有大量后台推送的消息,相当于是苹果的手机有很多通知的服务,例如说微信,很多的通知的服务业在悄悄的进行。
经过统计,中国联通用户上网记录每个月是超过了两万亿条,并且还在增长。数据量是全国目前运营商所有类型的计费话单的30倍以上,包括语音详单、短信详单、采信详单以及包括此前运营商给的流量记录详单,所有的数据量的30倍以上。
移动互联网是快速的发展期,大约每8个月流量会翻一番,今年年底4G的牌照会发放,在LTE的时代,用户的流量的消费会越来越大,现在是两万亿,明年这个时候是五万亿条,之后也许是八万亿条,数据很巨大。
上网数据是个典型的大数据
采用什么方式进行存储和检索呢是个大问题,此前运营商采用的架构方式是IUE的架构,用IBM小型机,用商用的关系型数据库,用高可靠性的EMC的存储,构建无论是计费系统还是帐户系统,很多的系统都是这样方式构建的这个很昂贵,但是它解决不了我们的问题。存储这么大规模量的数据,以后超越了可管理容量的上线。在做查询的时候,关系型数据库对大规模操作的时候性能是严重下降的。
数据量达到500G延时可能是三千秒,意味着两万亿条记录的数据,分期、分表存下来,达到500G用户有个查询的请求意味着一个小时才能给用户响应,即使做过优化查询的速度也是半个小时以上,审核公司也做过实验,经常一个查询是几个小时才能查询到用户的详单。
我们面临的问题是数据快速的写入,每月有两万亿条记录,每天有超过七百亿条记录,这么大的数据量如何快速的存储下来,那面记录在源源不断的生成,我们必须保持足够的速度记录下来,第二我们的数据如何快速检索提供给用户,在什么时候上了什么网址用了多少流量。上网记录的数据本身是个高价值的数据,它是目前为止可能是用户在移动互联网行为上的一个最基础、最原始的数据,这个数据如何进行高效的分析和挖掘。这么大的数据量,如何来进行低成本的存储,都是当时面临的问题。
Hadoop可以帮助我们解决这些问题
Hadoop采用开源的方式,构架了普通的PC服务器之上,抛弃了高端的存储,也可以保证高可靠性,适合数据快速的写入,以及有快速检索的方式,这样相当于有十亿的业务需求解决不了问题,Hadoop帮我们解决了,这是我们跟Hadoop脱离了实验室的概念,是真正的商用系统上第一次亲密接触。
慧都控件|提供软件技术整体解决方案
云集全球三千余款优秀控件、软件产品,提供行业领先的咨询、培训与开发服务
企业QQ:|电话:023-
服务与支持
重庆 / 023-
北京 / 010-
400-700-1020
慧都科技有限公司 版权所有 Copyright 2003-
400-700-1020
<input type="hidden" id="url" value=""/>

我要回帖

更多关于 hadoop 数据分析 的文章

 

随机推荐