一、先聊一聊大数据技能开展史?
咱们运用的各种大数据技能,最早起源于Google当年发布的三篇论文,Google FS(2003年)、MapReduce(2004年)、BigTable(2006年),其实Google其时并没有发布其源码,可是现已把这三个项目的原理和完成方法在发布的论文中具体的描述了,这几篇论文面世后,就引爆了职业的大数据学习和研究的浪潮。
随后一个叫 Doug Cutting 的技能大牛(也便是写 Lucene 的那位,做JAVA的同学应该都很了解)就开端依据Google发布的论文去开发相关体系,后来渐渐开展成了现在的 Hadoop,包含 MapReduce 和 HDFS。
可是在其时,运用 MapReduce 进行数据剖析和使用仍是有很大门槛的,毕竟要编写 Map 和 Reduce 程序。只能大数据工程师上马,一般BI剖析师仍是一脸懵逼。所以那个时候都是些大公司在玩。
已然有这么大门槛,就会有人勇于站出往来不断处理门槛,比方 Yahoo,他们开发一个叫做 Pig 的东西,Pig是一个脚本语言,依照Pig的语法写出来的脚本能够编译成 MapReduce 程序,然后直接在 Hadoop 上运行了。
这个时候,大数据开发的门槛的确降了一点。
不过,Pig大法虽好,但仍是需求编写脚本啊,这仍是码农的活儿啊。人们就在想,有没有不用写代码的方法就能做大数据核算呢,还真有,这个世界的前进便是由一群长于考虑的“懒人”推动的。
所以,Facebook公司的一群高智商家伙发布了一个叫做 Hive 的东西,这个 Hive 能够支撑运用 SQL 语法直接进行大数据核算。原理其实便是,你只需求写一个查询的 SQL,然后 Hive 会主动解析 SQL 的语法,将这个SQL 句子转化成 MapReduce 程序去履行。
这下子就简略了,SQL 是BI/数据剖析师们最为常用的东西了,从此他们能够无视码农,开开心心的独立去写Hive,去做大数据剖析工作了。Hive从此就火爆了,一般公司的大多数大数据作业都是由Hive完成的,只要极少数较为杂乱的需求才需求数据开发工程师去编写代码,这个时候,大数据的门槛才真真的降低了,大数据使用也才真实遍及,大大小小的公司都开端在自己的事务上运用了。
可是,人们的追求不止如此,尽管数据剖析便利了,可是咱们又发现 MapReduce 程序履行功率不够高啊,其中有多种原因,但有一条很要害,便是 MapReduce 首要是以磁盘作为存储介质,磁盘的功能极大的约束了核算的功率。
在这个时候,Spark 呈现了,Spark 在运行机制上、存储机制上都要优于 MapReduce ,因而大数据核算的功能上也远远超过了 MapReduce 程序,许多企业又开端渐渐采用 Spark 来代替 MapReduce 做数据核算。
至此,MapReduce 和 Spark 都已成型,这类核算结构一般都是按“天”为单位进行数据核算的,因而咱们称它们为“大数据离线核算”。已然有“离线核算”,那就必然也会有非离线核算了,也便是现在称为的“大数据实时核算”。
由于在数据实际的使用场景中,以“天”为颗粒出成果仍是太慢了,只合适十分很多的数据和大局的剖析,但还有许多事务数据,数据量不一定十分庞大,但它却需求实时的去剖析和监控,这个时候就需求“大数据实时核算”结构发挥作用了,这类的代表有:Storm、Spark Streaming、Flink 为干流,也被称为 流式核算,由于它的数据源像水流一样一点点的流入追加的。
当然,除了上面介绍的那些技能,大数据还需求一些相关底层和周边技能来一起支撑的,比方 HDFS 便是分布式文件体系,用于负责存储数据的,HBase 是根据HDFS的NoSQL体系、与 HBase类似的还有 Cassandra也都很抢手。
已有 2 人购买 本主题需向作者支付 111 金钱 才能浏览 购买主题
下载看看
66
666666666666
6666666666666666
666
感谢分享
666666666666
下载看看
谢谢
咱们运用的各种大数据技能,最早起源于Google当年发布的三篇论文,Google FS(2003年)、MapReduce(2004年)、BigTable(2006年),其实Google其时并没有发布其源码,可是现已把这三个项目的原理和完成方法在发布的论文中具体的描述了,这几篇论文面世后,就引爆了职业的大数据学习和研究的浪潮。
随后一个叫 Doug Cutting 的技能大牛(也便是写 Lucene 的那位,做JAVA的同学应该都很了解)就开端依据Google发布的论文去开发相关体系,后来渐渐开展成了现在的 Hadoop,包含 MapReduce 和 HDFS。
可是在其时,运用 MapReduce 进行数据剖析和使用仍是有很大门槛的,毕竟要编写 Map 和 Reduce 程序。只能大数据工程师上马,一般BI剖析师仍是一脸懵逼。所以那个时候都是些大公司在玩。
已然有这么大门槛,就会有人勇于站出往来不断处理门槛,比方 Yahoo,他们开发一个叫做 Pig 的东西,Pig是一个脚本语言,依照Pig的语法写出来的脚本能够编译成 MapReduce 程序,然后直接在 Hadoop 上运行了。
这个时候,大数据开发的门槛的确降了一点。
不过,Pig大法虽好,但仍是需求编写脚本啊,这仍是码农的活儿啊。人们就在想,有没有不用写代码的方法就能做大数据核算呢,还真有,这个世界的前进便是由一群长于考虑的“懒人”推动的。
所以,Facebook公司的一群高智商家伙发布了一个叫做 Hive 的东西,这个 Hive 能够支撑运用 SQL 语法直接进行大数据核算。原理其实便是,你只需求写一个查询的 SQL,然后 Hive 会主动解析 SQL 的语法,将这个SQL 句子转化成 MapReduce 程序去履行。
这下子就简略了,SQL 是BI/数据剖析师们最为常用的东西了,从此他们能够无视码农,开开心心的独立去写Hive,去做大数据剖析工作了。Hive从此就火爆了,一般公司的大多数大数据作业都是由Hive完成的,只要极少数较为杂乱的需求才需求数据开发工程师去编写代码,这个时候,大数据的门槛才真真的降低了,大数据使用也才真实遍及,大大小小的公司都开端在自己的事务上运用了。
可是,人们的追求不止如此,尽管数据剖析便利了,可是咱们又发现 MapReduce 程序履行功率不够高啊,其中有多种原因,但有一条很要害,便是 MapReduce 首要是以磁盘作为存储介质,磁盘的功能极大的约束了核算的功率。
在这个时候,Spark 呈现了,Spark 在运行机制上、存储机制上都要优于 MapReduce ,因而大数据核算的功能上也远远超过了 MapReduce 程序,许多企业又开端渐渐采用 Spark 来代替 MapReduce 做数据核算。
至此,MapReduce 和 Spark 都已成型,这类核算结构一般都是按“天”为单位进行数据核算的,因而咱们称它们为“大数据离线核算”。已然有“离线核算”,那就必然也会有非离线核算了,也便是现在称为的“大数据实时核算”。
由于在数据实际的使用场景中,以“天”为颗粒出成果仍是太慢了,只合适十分很多的数据和大局的剖析,但还有许多事务数据,数据量不一定十分庞大,但它却需求实时的去剖析和监控,这个时候就需求“大数据实时核算”结构发挥作用了,这类的代表有:Storm、Spark Streaming、Flink 为干流,也被称为 流式核算,由于它的数据源像水流一样一点点的流入追加的。
当然,除了上面介绍的那些技能,大数据还需求一些相关底层和周边技能来一起支撑的,比方 HDFS 便是分布式文件体系,用于负责存储数据的,HBase 是根据HDFS的NoSQL体系、与 HBase类似的还有 Cassandra也都很抢手。