历史和湖泊演变的数据

数据湖泊提供一个完整的和权威的数据存储,数据分析,商业智能和机器学习

历史和湖泊演变的数据

早期的数据管理:数据库

在早期的数据管理,关系数据库公司使用的主要方法是收集、存储和分析数据。关系数据库,也被称为关系数据库管理系统(rdbms),为企业提供了一种方式来存储和分析高度结构化的数据对他们的客户使用结构化查询语言(SQL)。多年来,关系数据库满足公司的需求:需要存储的数据量相对较小,和关系数据库简单和可靠。直到今天,关系数据库存储高度结构化的数据仍然是一个很好的选择,不是太大。然而,数据的速度和规模即将爆炸。

互联网的兴起,和数据仓库

随着互联网的兴起,企业发现自己沉浸在客户数据。存储所有的数据,一个数据库不再是足够的。公司经常建立多个数据库由业务部门来保存数据。随着数据量的增长而增长,公司可以经常得到许多与不同的用户断开连接的数据库和目的。

一方面,这是一个祝福:用更多更好的数据,企业能够更准确的目标客户和管理他们的行动比以往任何时候都要多。另一方面,这导致数据仓库:跨组织的分散,分散存储的数据。没有办法集中和综合数据,许多企业未能综合成可行的见解。这种疼痛导致的数据仓库。数据仓库。

数据仓库是天生的统一公司的结构化数据在同一屋檐下

如此多的数据存储在不同的源系统,企业需要一种方法来集成它们。的想法“客户”的360度视图的概念,以及数据仓库出生来满足这种需要和整个组织团结不同的数据库。

数据仓库成为一个技术,汇集了一个组织的关系数据库在一个雨伞下的集合,允许数据查询和视为一个整体。起初,数据仓库通常是运行在昂贵的本地基于硬件硬件厂商Teradata和Vertica等,后来成为可用的云。数据仓库成为大公司最主要的数据架构在90年代末开始。这种技术的主要优点包括:

许多数据源的集成
数据进行读访问优化
运行快速临时分析查询的能力
数据审计、治理和血统

数据仓库适合他们的目的,但是随着时间的推移,这项技术变得明显的缺点。

无法存储非结构化,原始数据
昂贵的,专有的硬件和软件
扩展困难由于紧密耦合的存储和计算能力

Apache Hadoop™和火花™使非结构化数据分析,并奠定了现代数据湖泊

的“大数据”在2000年代初,公司发现,他们需要对数据集的分析,不能安装在一台计算机。此外,他们需要的数据类型分析并不总是整齐的结构,企业需要利用非结构化数据的方法。使大数据分析成为可能,考虑的成本和供应商数据仓库,Apache Hadoop™是一个开源的分布式数据处理技术bob下载地址。

Hadoop是什么?

Apache Hadoop™是开源软件的集合,允许将大型数据集的大数bob下载地址据分析处理的计算机集群并行工作。它包括Hadoop MapReduce,Hadoop分布式文件系统(HDFS)和纱(另一个资源谈判代表)。HDFS允许将一个数据集存储在不同的存储设备,就好像它是一个文件。这工作跟MapReduce算法密切相关,决定如何分割大型计算任务(如统计计数或聚合)为许多较小的任务,可以运行在并行计算集群。

Hadoop是一个分水岭的引入对大数据分析,主要有两个原因。首先,它意味着一些公司可能从昂贵的专有数据仓库软件内部计算集群运行Hadoop免费和开源。bob下载地址第二,它允许公司来分析大量的非结构化数据,在以前是不可能的。Hadoop之前,企业数据仓库通常只分析高度结构化的数据,但现在他们可以从大量的数据中提取价值,包括半结构化和非结构化数据。一旦公司有能力分析原始数据,收集和存储这些数据变得越来越重要,为现代数据湖。

早期的数据湖泊是建立在Hadoop

早期数据建立在Hadoop MapReduce和湖泊HDFS享受不同程度的成功。这些早期的数据湖泊使用Apache蜂巢™来支持用户查询数据与Hadoop-oriented SQL引擎。一些早期的数据湖泊成功,而另一些人失败了由于Hadoop的复杂性和其他因素。直到今天,许多人仍然把“数据湖”一词与Hadoop,因为它是第一个框架,使大量的非结构化数据的收集和分析。然而,今天,许多现代数据湖架构已经从本地转移Hadoop在云中运行的火花。不过,这些最初的尝试很重要,因为这些Hadoop data湖湖泊是现代的前兆数据。随着时间的推移,Hadoop的受欢迎程度趋于平稳,像大多数组织的问题不能像缓慢的性能,克服有限的安全性和缺乏支持等重要的用例流。

Apache火花:统一的现代bob体育亚洲版数据分析发动机驱动湖泊

Hadoop的引入后不久,Apache火花介绍了。引发了MapReduce更进一步的想法,提供一个强大的、广义分布式计算框架大数据。随着时间的推移,引发数据从业者中盛行,主要因为它是易于使用,在基准测试中表现良好,并提供了额外的功能,增加了其效用和扩大了它的吸引力。例如,火花的交互模式启用数据科学家对大数据集进行探索性数据分析,而不用花时间等低附加值的工作编写复杂的代码来将数据转换为一个可靠的来源。火花也能训练大规模机器学习模型,大数据集使用SQL查询,并与火花迅速过程实时数据流,增加用户的数量明显的和潜在的应用技术。

引入以来,引发的声望越来越多,这已成为事实上的标准对于大数据处理,在很大程度上由于提交的社区成员和专用开源贡献者。bob下载地址今天,许多现代数据湖架构使用火花作为处理引擎,使执行ETL数据工程师和科学家,完善他们的数据,机器学习和训练模式。