跳转到主要内容

数据湖的最佳实践

数据湖泊提供一个完整的和权威的数据存储,数据分析,商业智能和机器学习

数据湖的最佳实践

在前面的部分中共享,lakehouse是一个平台架构,使用类似的数据结构和数据管理功能与数据仓库,而bob体育客户端下载是直接运行在低成本、灵活的存储用于云数据湖泊。先进的分析和对非结构化数据的机器学习是当今企业战略重点之一,而摄取的能力各种格式的原始数据(结构化、非结构化、半结构化的),一个数据湖是这一明确的选择,简化架构。最终,Lakehouse架构-湖围绕数据允许传统分析,数据科学和机器学习在同一个系统共存。

marketecture

使用数据作为原始数据的基础和着陆区湖

当你将新数据添加到数据湖,重要的是不要执行任何数据转换你的原始数据(有一个例外,个人身份信息(见下文)。数据应该保存在它的原生格式,所以没有无意中丢失的信息聚合或修改它。即使清洗空值的数据,例如,可以损害良好的数据科学家,谁能看似挤出额外的分析价值的不仅仅是数据,但甚至缺乏。

然而,数据工程师需要剔除PII(个人身份信息)从任何数据源包含它,代之以一个惟一的ID,之前那些湖可以保存到数据来源。这个过程中保持一个人之间的联系及其数据分析的目的,但确保用户隐私,遵守法规GDPR和CCPA数据。以来的一个主要目标数据的湖是无限期保存原始数据资产,这一步可以保留的数据,否则需要扔掉。

保护lakehouse角色——和视图的访问控制

传统的基于角色的访问控制(像我的角色在AWS和基于角色的访问控制在Azure)为数据管理提供一个很好的起点湖安全,但他们不够细粒度对许多应用程序。相比之下,基于访问控制允许精确的权限边界切到个人专栏,行或笔记本电池水平,使用SQL视图。SQL是最简单的方法实现这样一个模型,由于其普遍性和简单过滤基于谓词条件和能力。

基于访问控制可在现代统一的数据平台上,并通过凭证可以与云本机集成基于角色控制直通,消除需要交出敏感的云提供商的凭证。bob体育客户端下载一旦设置,管理员可以通过将用户映射到基于角色的权限,然后在精细层基于视图的权限扩展或收缩的权限设置基于每个用户的具体情况。你应该定期检查访问控制权限,以确保它们不会成为过时。

建立可靠性和ACID事务lakehouse通过三角洲湖

直到最近,ACID事务对数据不可能湖泊。然而,他们现在可以通过引入开源三角洲湖,将数据仓库数据的可靠性和一致性湖泊。bob下载地址

ACID属性(原子性、一致性、隔离性和持久性)的属性数据库事务通常是发现在传统的关系数据库管理系统(rdbms)的系统。他们理想的数据库、数据仓库和数据湖泊都因为他们确保数据的可靠性、完整性和可信赖性,防止一些上述污染来源的数据。

三角洲湖构建在开源镶花的速度和可靠性(已经高性能文件格式),添加事务担保,可扩展的元数据处理和批处理和流bob下载地址媒体的统一。这也是100%兼容Apache火花API,所以它能够无缝地使用火花统一分析引擎。bob体育亚洲版BOB低频彩了解更多关于三角洲湖和迈克尔时常要网络研讨会题为湖泊三角洲湖:开源的可靠bob下载地址性数据或看一个快速入门指南三角洲湖。

目录lakehouse中的数据

为了实现一个成功的lakehouse策略,重要的是为用户正确编目新的数据在进入您的数据,并不断的牧师,以确保它仍然更新。目录是一个有组织的数据,综合存储表的元数据,包括表和列描述,模式,数据沿袭和更多的信息。它是下游消费者的主要方式(例如,BI和数据分析师)可以发现哪些数据是可用的,它意味着什么,以及如何使用它。它应该提供给用户一个中央平台或在一个共享库中。bob体育客户端下载

的摄入,数据管理员应该鼓励(或需要)用户“标签”新数据源或表信息——包括业务单位、项目业主、数据质量水平等等——这样他们就可以进行排序,比较容易发现。在完美的世界里,这种风气的注释膨胀成一个全公司范围内的承诺仔细标记新数据。至少,数据管理员可以要求任何新的提交数据注释和湖,随着时间的推移,希望培养一种协作的文化管理,标签和分类数据成为一个相互势在必行。

有很多软件可以简化数据编目。主要的云提供商提供他们自己的专有数据目录软件产品,即Azure数据目录和AWS胶水。外,Apache地图集是可用的开源软件,和其他选项包括从Alation祭,Collibra Ibob下载地址nformatica,等等。

lakehouse开始

现在你理解构建lakehouse的价值和重要性,下一步是建立你的lakehouse的基础三角洲湖。检查我们的学习或多或我们的网站BOB低频彩免费试着砖