介绍数据湖泊

数据湖泊提供一个完整的和权威的数据存储,数据分析,商业智能和机器学习

背景图像

介绍数据湖泊

湖是什么数据?

一个数据湖是一个中央位置,拥有大量数据在本土,原始格式。分层数据仓库相比,在文件或文件夹存储数据,数据使用一个湖平面结构和对象存储来存储数据。对象存储存储数据与元数据标签和一个独特的标识符,这使得它更容易在区域定位和检索数据,并提高了性能。通过利用廉价的对象存储和开放格式,数据湖泊使许多应用程序数据的利用。

数据湖泊开发针对数据仓库的局限性。为企业提供高性能和可伸缩的数据仓库分析,它们是昂贵的和专有的和无法处理现代用例大多数公司正在寻找地址。数据湖泊通常用来巩固一个组织所有的数据在一个中央位置,可以保存”,“而不需要征收模式(即。,数据是如何组织的正式结构)像一个数据仓库。细化过程的所有阶段的数据可以存储在一个数据湖:原始数据可摄入和存储与组织的结构,表格数据资源(如数据库表),以及中间数据表生成的精炼过程中的原始数据。与大多数数据库和数据仓库,数据湖泊可以处理所有数据类型——包括非结构化和半结构化数据像图片,视频、音频和文件——这是今天的机器学习和高级分析的关键用例。

为什么你会使用数据湖吗?

首先,湖泊是开放的数据格式,所以用户避免锁定专有系统像一个数据仓库,已成为越来越重要的在现代数据体系结构。数据湖泊也高度耐用、低成本,因为他们的规模和杠杆对象存储的能力。此外,先进的分析和机器学习对非结构化数据的一些最今天企业战略重点。唯一能够摄取各种格式的原始数据(结构化、非结构化、半结构化),连同提到的其他好处,使数据存储的数据湖明确的选择。

当适当的架构,数据湖泊启用的能力:

icon-title
电力数据科学和机器学习

湖泊允许您将原始数据转换成数据准备SQL结构化数据分析,数据科学与低延迟和机器学习。原始数据可以保留无限期地以低成本为未来使用机器学习和分析。

icon-title
集中,巩固和目录数据

集中式数据湖消除数据孤岛的问题(如数据重复,多种安全策略和协作困难),提供下游用户一个地方寻找所有的数据来源。

icon-title
快速和无缝集成不同的数据来源和格式

所有数据类型可以在数据收集和保留无限期湖,包括批处理和流数据、视频、图像、二进制文件和更多。由于数据提供了一个新数据的着陆区湖,它总是最新的。

icon-title
民主化数据提供用户自助服务工具

数据湖泊非常灵活,让用户完全不同的技能、工具和语言执行不同的分析任务。

数据湖挑战

尽管他们的优点,但许多数据的承诺湖泊没有意识到由于缺少一些关键功能:不支持事务,没有执行数据质量或治理,可怜的性能优化。因此,大多数的企业已经成为数据中的数据湖泊沼泽。

icon-title
可靠性的问题

没有适当的工具,数据的湖泊会从数据可靠性的问题,使数据科学家和分析师很难推断数据。这些问题源于困难结合批处理和流数据,数据损坏和其他因素。

icon-title
缓慢的性能

湖的大小数据在数据的增加,传统的查询引擎的表现一直较慢。的一些瓶颈包括元数据管理、数据分区不当等等。

icon-title
缺乏安全特性

湖泊的数据很难正确安全管理由于缺乏可见性和删除或更新数据的能力。这些限制使其很难满足监管机构的要求。

由于这些原因,传统数据湖本身不足以满足企业的需要,寻求创新,这也是为什么企业经常在复杂的体系结构,孤立的数据在不同的存储系统:数据仓库,数据库和其他存储系统在整个企业。简化架构的统一所有数据在数据湖是第一步的公司渴望利用机器学习和数据分析来赢得未来十年。

lakehouse如何解决这些挑战

答案数据湖泊是lakehouse的挑战,这在上面添加一个事务性存储层。lakehouse使用类似的数据结构和数据管理功能的数据仓库,而是直接运行在云数据湖泊。最终,lakehouse允许传统分析,数据科学和机器学习在同一个系统共存,所有在一个开放的格式。

lakehouse允许范围广泛的新的跨功能的企业级分析用例,BI和机器学习项目,可以释放巨大的商业价值。数据分析师能收获丰富的见解通过湖使用SQL查询数据,数据科学家可以加入和丰富的数据集生成毫升模型与更大的精度,数据工程师可以构建自动化ETL管道,和商业情报分析人员可以创建视觉仪表盘和报表工具比以前更快和更容易。这些用例都可以同时进行数据湖,没有提升和改变数据,尽管新数据流。

建立一个lakehouse三角洲湖

lakehouse建立成功,组织必须利用三角洲湖,开放格式数据管理和治理层相结合的最好的两个湖泊和数据仓库的数据。各行业,企业利用三角洲湖电力合作提供了一个可靠的、单一来源的真理。通过交付质量、可靠性、安全性和性能数据湖上——流和批处理操作——三角洲湖消除数据孤岛,使分析整个企业的访问。三角洲湖,客户可以建立一个有成本效益的,高度可伸缩的lakehouse,消除数据孤岛,为终端用户提供自我分析。

BOB低频彩了解更多关于三角洲湖→

湖泊与数据lakehouses与数据仓库

  1. 类型的数据
    成本
    格式
    可伸缩性
    面向的用户
    可靠性
    易用性
    性能
  2. 数据湖
    所有类型:结构化数据、半结构化数据、非结构化(生的)数据
    美元
    开放格式
    尺度持有任何以低成本的数据量,无论类型
    限制:数据科学家
    低质量数据沼泽
    困难:探索大量原始数据可能很困难,没有工具来组织和目录数据
    可怜的
  3. 数据lakehouse
    所有类型:结构化数据、半结构化数据、非结构化(生的)数据
    美元
    开放格式
    尺度持有任何以低成本的数据量,无论类型
    机器学习统一:数据分析师、数据科学家,工程师
    高质量的、可靠的数据
    简单:为数据仓库的简单性和结构提供了更广泛的用例数据湖
  4. 数据仓库
    结构化数据只
    $ $ $
    关闭,专有格式
    扩大成为指数由于供应商成本更加昂贵
    有限:数据分析师
    高质量的、可靠的数据
    简单:数据仓库的结构使得用户能够快速、轻松地访问数据报告和分析

Lakehouse最佳实践

icon-title
使用数据湖的着陆区所有数据

将你所有的数据都保存到您的数据没有改变或湖聚合保存它为机器学习和数据血统的目的。

icon-title
面具数据包含之前进入你的私人信息

个人身份信息(PII)必须pseudonymized为了符合GDPR并确保它可以无限期保存。

icon-title
安全数据湖——基于角色访问控制

添加基于acl(访问控制级别)允许更精确的调优和控制数据的安全性比仅基于角色控制湖。

icon-title
可靠性和性能构建到您的数据通过使用三角洲湖湖

大数据的性质使得它难以提供相同级别的可靠性和性能可以与数据库直到现在。湖泊三角洲湖带来了这些重要特性数据。

icon-title
目录中的数据数据湖

使用数据目录和元数据管理工具的摄入,使自助数据科学分析。

阅读指南数据→湖的最佳实践

壳牌一直经历着一个数字转换的一部分我们的野心提供更多和更清洁的能源解决方案。作为的一部分,我们一直在大力投资数据湖架构。我们的野心已经使我们的数据团队迅速查询大量数据集以最简单的方式。pb级别上执行快速查询数据集使用标准的BI工具对我们来说是一个改变游戏规则。

丹Jeavons,通用数据科学、壳

→阅读完整的故事

历史和湖泊演变的数据

早期的数据管理:数据库

在早期的数据管理,关系数据库公司使用的主要方法是收集、存储和分析数据。关系数据库,也被称为关系数据库管理系统(rdbms),为企业提供了一种方式来存储和分析高度结构化的数据对他们的客户使用结构化查询语言(SQL)。多年来,关系数据库满足公司的需求:需要存储的数据量相对较小,和关系数据库简单和可靠。直到今天,关系数据库存储高度结构化的数据仍然是一个很好的选择,不是太大。然而,数据的速度和规模即将爆炸。

互联网的兴起,和数据仓库

随着互联网的兴起,企业发现自己沉浸在客户数据。存储所有的数据,一个数据库不再是足够的。公司经常建立多个数据库由业务部门来保存数据。随着数据量的增长而增长,公司可以经常得到许多与不同的用户断开连接的数据库和目的。

一方面,这是一个祝福:用更多更好的数据,企业能够更准确的目标客户和管理他们的行动比以往任何时候都要多。另一方面,这导致数据仓库:跨组织的分散,分散存储的数据。没有办法集中和综合数据,许多企业未能综合成可行的见解。这种疼痛导致的数据仓库。数据仓库

数据仓库是天生的统一公司的结构化数据在同一屋檐下

如此多的数据存储在不同的源系统,企业需要一种方法来集成它们。的想法“客户”的360度视图的概念,以及数据仓库出生来满足这种需要和整个组织团结不同的数据库。

数据仓库成为一个技术,汇集了一个组织的关系数据库在一个雨伞下的集合,允许数据查询和视为一个整体。起初,数据仓库通常是运行在昂贵的本地基于硬件硬件厂商Teradata和Vertica等,后来成为可用的云。数据仓库成为大公司最主要的数据架构在90年代末开始。这种技术的主要优点包括:

  • 许多数据源的集成
  • 数据进行读访问优化
  • 运行快速临时分析查询的能力
  • 数据审计、治理和血统

数据仓库适合他们的目的,但是随着时间的推移,这项技术变得明显的缺点。

  • 无法存储非结构化,原始数据
  • 昂贵的,专有的硬件和软件
  • 扩展困难由于紧密耦合的存储和计算能力

Apache Hadoop™和火花™使非结构化数据分析,并奠定了现代数据湖泊

的“大数据”在2000年代初,公司发现,他们需要对数据集的分析,不能安装在一台计算机。此外,他们需要的数据类型分析并不总是整齐的结构,企业需要利用非结构化数据的方法。使大数据分析成为可能,考虑的成本和供应商数据仓库,Apache Hadoop™是一个开源的分布式数据处理技术bob下载地址。

Hadoop是什么?

Apache Hadoop™是开源软件的集合,允许将大型数据集的大数bob下载地址据分析处理的计算机集群并行工作。它包括Hadoop MapReduce,Hadoop分布式文件系统(HDFS)纱线(另一个资源谈判)。HDFS允许将一个数据集存储在不同的存储设备,就好像它是一个文件。这工作跟MapReduce算法密切相关,决定如何分割大型计算任务(如统计计数或聚合)为许多较小的任务,可以运行在并行计算集群。

Hadoop是一个分水岭的引入对大数据分析,主要有两个原因。首先,它意味着一些公司可能从昂贵的专有数据仓库软件内部计算集群运行Hadoop免费和开源。bob下载地址第二,它允许公司来分析大量的非结构化数据,在以前是不可能的。Hadoop之前,企业数据仓库通常只分析高度结构化的数据,但现在他们可以从大量的数据中提取价值,包括半结构化和非结构化数据。一旦公司有能力分析原始数据,收集和存储这些数据变得越来越重要,为现代数据湖。

早期的数据湖泊是建立在Hadoop

早期数据建立在Hadoop MapReduce和湖泊HDFS享受不同程度的成功。这些早期的数据湖泊使用Apache蜂巢™来支持用户查询数据与Hadoop-oriented SQL引擎。一些早期的数据湖泊成功,而另一些人失败了由于Hadoop的复杂性和其他因素。直到今天,许多人仍然把“数据湖”一词与Hadoop,因为它是第一个框架,使大量的非结构化数据的收集和分析。然而,今天,许多现代数据湖架构已经从本地转移Hadoop在云中运行的火花。不过,这些最初的尝试很重要,因为这些Hadoop data湖湖泊是现代的前兆数据。随着时间的推移,Hadoop的受欢迎程度趋于平稳,像大多数组织的问题不能像缓慢的性能,克服有限的安全性和缺乏支持等重要的用例流。

Apache火花:统一的现代bob体育亚洲版数据分析发动机驱动湖泊

Hadoop的引入后不久,Apache火花介绍了。引发了MapReduce更进一步的想法,提供一个强大的、广义分布式计算框架大数据。随着时间的推移,引发数据从业者中盛行,主要因为它是易于使用,在基准测试中表现良好,并提供了额外的功能,增加了其效用和扩大了它的吸引力。例如,火花的交互模式启用数据科学家对大数据集进行探索性数据分析,而不用花时间等低附加值的工作编写复杂的代码来将数据转换为一个可靠的来源。火花也能训练大规模机器学习模型,大数据集使用SQL查询,并与火花迅速过程实时数据流,增加用户的数量明显的和潜在的应用技术。

引入以来,引发的声望越来越多,这已成为事实上的标准对于大数据处理,在很大程度上由于提交的社区成员和专用开源贡献者。bob下载地址今天,许多现代数据湖架构使用火花作为处理引擎,使执行ETL数据工程师和科学家,完善他们的数据,机器学习和训练模式。

与数据湖泊的挑战是什么?

挑战# 1:数据的可靠性

没有适当的工具,数据湖泊遭受可靠性问题,使数据科学家和分析师很难推断数据。在本节中,我们将探讨一些数据可靠性问题的根源湖泊。

后处理数据由于管道破裂

与传统数据湖泊,需要不断的再加工数据缺失或损坏可能成为一个主要的问题。它经常发生在某人写数据到数据湖,但由于硬件或软件故障时,写作业不完成。在这种情况下,数据工程师必须花时间和精力删除任何损坏数据,检查数据正确性的其余部分,并建立一个新的写工作填补数据中的任何漏洞。

三角洲湖解决了后处理的问题,使得数据事务湖,这意味着每个操作上执行原子:它要么完全或不完全成功。没有,这很好,因为你的状态数据湖可以保持清洁。因此,数据科学家不必花时间沉闷的后处理数据由于部分没有写。相反,他们可以花些时间寻找见解的数据和建筑机器学习模型驱动更好的业务成果。

数据验证和质量执行

当考虑数据应用,而不是软件应用程序、数据验证是至关重要的,因为没有它,没有办法衡量的东西在你的数据坏了或不准确的最终导致可怜的可靠性。与传统的软件应用程序,很容易知道出事了,在你的网站上你可以看到按钮不是在正确的地方,例如。然而,与数据应用数据质量问题就不容易被检测。边界情况,损坏数据,或不当的表面在关键时间和关键数据类型可以打破你的数据管道。更糟的是,这些数据错误可以不被发现和倾斜你的数据,让你可怜的商业决策。

解决方案是使用数据质量执法工具像三角洲湖的模式执行和管理模式演化的质量数据。这些工具,与三角洲湖的ACID事务,可以完全信任你的数据,即使它的发展和变化的整个生命周期,确保数据可靠性。BOB低频彩了解更多关于三角洲湖

结合批处理和流媒体数据

随着实时收集的数据量,数据湖泊需要能够轻松地捕获和把流数据与历史、批处理数据,这样他们就可以保持更新。传统上,许多系统架构师转向λ架构来解决这个问题,但λ架构需要两个单独的代码(一个用于批处理和一个用于流媒体),且难以建立和维护。

三角洲湖,每个表可以很容易地整合这些类型的数据,作为批处理和流源和下沉。三角洲湖能够做到这一点通过ACID事务的两个属性:一致性和隔离。这些属性确保每个观众看到一致的数据视图,甚至当多个用户同时修改表,尽管新数据流到桌子上所有在同一时间。

批量更新、合并和删除

数据湖泊可以保存大量的数据,和公司需要一些方法来可靠地执行更新、合并和删除数据的操作,这样就可以保持最新。湖泊与传统数据,它可以是非常困难的执行这样的简单操作,并确认他们成功地发生,因为没有机制,确保数据一致性。没有这样的一种机制,数据科学家就难以推断他们的数据。

一个常见的方式更新、合并和删除数据湖泊成为公司的难点与法规CCPA和GDPR数据。根据这些规定,公司有义务删除所有客户的信息在他们的请求。与传统数据湖,有两个挑战完成这个请求。公司需要能够:

  1. 查询所有的数据在数据使用SQL湖
  2. 删除任何数据相关客户逐行计算,传统的分析引擎不具备做的东西

三角洲湖解决这个问题通过启用数据分析师轻松查询所有的数据在数据使用SQL湖。然后,分析人员可以执行更新,合并或删除数据和一个命令,由于三角洲湖的ACID事务。阅读更多关于如何让你的数据湖CCPA符合一个统一的数据和分析方法。

挑战# 2:查询性能

查询性能是一个关键的驱动程序的用户满意度数据分析工具。为用户进行互动,探索性数据分析使用SQL,快速反应常见的查询是至关重要的。

湖泊可以容纳成千上万的文件和数据表,所以重要的是你的数据查询引擎湖是大规模集群的性能优化。可能发生的一些主要的性能瓶颈,湖泊的数据在下面讨论。

小文件

有大量的小文件在数据湖(而不是更大的文件优化分析)可以减缓性能大大由于I / O吞吐量的限制。三角洲湖使用小文件压缩小文件合并到更大的优化的读访问权。

没有必要从磁盘读取

多次访问数据从存储可以显著缓慢的查询性能。三角洲湖使用缓存来选择性地举行重要的表在内存中,这样他们可以更快地回忆道。它还使用数据跳读吞吐量增加15 x,避免处理与给定查询无关的数据。

删除文件

在现代数据使用云存储的湖泊,“删除”的文件可以留在湖长达30天的数据,创建不必要的开销,降低查询性能。三角洲湖提供真空命令来永久删除不再需要的文件。

数据索引和分区

对于适当的查询性能,数据应该适当的索引,分区沿着湖维度,它是最有可能被分组。三角洲湖可以创建和维护索引,分区进行了优化分析。

元数据管理

湖泊,成长成为多个pb的数据或更多可以成为瓶颈不是数据本身,而是随之而来的元数据。三角洲湖使用火花提供可扩展的元数据管理,分配其处理就像数据本身。

挑战# 3:治理

数据湖泊传统上一直很难正确安全的治理需求和提供足够的支持。法律如GDPR和CCPA要求公司能够删除所有数据相关的客户如果他们要求。删除或更新数据在一个常规拼花湖附近的计算密集型,有时是不可能的。所有的文件,属于被请求的个人资料必须识别,吸收、过滤、写入新文件,原始的删除。这个必须完成,不破坏或腐败的查询在桌子上。没有简单的方法来删除数据,组织非常有限(通常罚款)由监管机构。

数据湖泊也使它具有挑战性的历史版本的数据保持在一个合理的成本,因为他们需要手动快照,快照存储。

数据湖的最佳实践

在前面的部分中共享,lakehouse是一个平台架构,使用类似的数据结构和数据管理功能与数据仓库,而bob体育客户端下载是直接运行在低成本、灵活的存储用于云数据湖泊。先进的分析和对非结构化数据的机器学习是当今企业战略重点之一,而摄取的能力各种格式的原始数据(结构化、非结构化、半结构化的),一个数据湖是这一明确的选择,简化架构。最终,Lakehouse架构-湖围绕数据允许传统分析,数据科学和机器学习在同一个系统共存。

使用数据作为原始数据的基础和着陆区湖

当你将新数据添加到数据湖,重要的是不要执行任何数据转换你的原始数据(有一个例外,个人身份信息(见下文)。数据应该保存在它的原生格式,所以没有无意中丢失的信息聚合或修改它。即使清洗空值的数据,例如,可以损害良好的数据科学家,谁能看似挤出额外的分析价值的不仅仅是数据,但甚至缺乏。

然而,数据工程师需要剔除PII(个人身份信息)从任何数据源包含它,代之以一个惟一的ID,之前那些湖可以保存到数据来源。这个过程中保持一个人之间的联系及其数据分析的目的,但确保用户隐私,遵守法规GDPR和CCPA数据。以来的一个主要目标数据的湖是无限期保存原始数据资产,这一步可以保留的数据,否则需要扔掉。

保护lakehouse角色——和视图的访问控制

传统的基于角色的访问控制(像我的角色在AWS和基于角色的访问控制在Azure)为数据管理提供一个很好的起点湖安全,但他们不够细粒度对许多应用程序。相比之下,基于访问控制允许精确的权限边界切到个人专栏,行或笔记本电池水平,使用SQL视图。SQL是最简单的方法实现这样一个模型,由于其普遍性和简单过滤基于谓词条件和能力。

基于访问控制可在现代统一的数据平台上,并通过凭证可以与云本机集成基于角色控制直通,消除需要交出敏感的云提供商的凭证。bob体育客户端下载一旦设置,管理员可以通过将用户映射到基于角色的权限,然后在精细层基于视图的权限扩展或收缩的权限设置基于每个用户的具体情况。你应该定期检查访问控制权限,以确保它们不会成为过时。

建立可靠性和ACID事务lakehouse通过三角洲湖

直到最近,ACID事务对数据不可能湖泊。然而,他们现在可以通过引入开源三角洲湖,将数据仓库数据的可靠性和一致性湖泊。bob下载地址

ACID属性(原子性、一致性、隔离性和持久性)的属性数据库事务通常是发现在传统的关系数据库管理系统(rdbms)的系统。他们理想的数据库、数据仓库和数据湖泊都因为他们确保数据的可靠性、完整性和可信赖性,防止一些上述污染来源的数据。

三角洲湖构建在开源镶花的速度和可靠性(已经高性能文件格式),添加事务担保,可扩展的元数据处理和批处理和流bob下载地址媒体的统一。这也是100%兼容Apache火花API,所以它能够无缝地使用火花统一分析引擎。bob体育亚洲版BOB低频彩了解更多关于三角洲湖和迈克尔时常要网络研讨会题为湖泊三角洲湖:开源的可靠bob下载地址性数据或者看看湖三角洲快速入门指南在这里。

目录lakehouse中的数据

为了实现一个成功的lakehouse策略,重要的是为用户正确编目新的数据在进入您的数据,并不断的牧师,以确保它仍然更新。目录是一个有组织的数据,综合存储表的元数据,包括表和列描述,模式,数据沿袭和更多的信息。它是下游消费者的主要方式(例如,BI和数据分析师)可以发现哪些数据是可用的,它意味着什么,以及如何使用它。它应该提供给用户一个中央平台或在一个共享库中。bob体育客户端下载

的摄入,数据管理员应该鼓励(或需要)用户“标签”新数据源或表信息——包括业务单位、项目业主、数据质量水平等等——这样他们就可以进行排序,比较容易发现。在完美的世界里,这种风气的注释膨胀成一个全公司范围内的承诺仔细标记新数据。至少,数据管理员可以要求任何新的提交数据注释和湖,随着时间的推移,希望培养一种协作的文化管理,标签和分类数据成为一个相互势在必行。

有很多软件可以简化数据编目。主要的云提供商提供他们自己的专有数据目录软件产品,即Azure数据目录和AWS胶水。外,Apache地图集是可用的开源软件,和其他选项包括从Alation祭,Collibra Ibob下载地址nformatica,等等。

lakehouse开始

现在你理解构建lakehouse的价值和重要性,下一步是建立你的lakehouse的基础三角洲湖。检查我们的学习或多或我们的网站BOB低频彩免费试着砖

准备好开始了吗?