跳转到主要内容
人工智能的数据

6 Lakehouse指导原则来构建一个有效的数据

学习一些指导原则如何设计一个Lakehouse平台,提供在你的组织的数据与人工智能需求。bob体育客户端下载
分享这篇文章

在这篇文章中,我们将讨论一些指导原则,以帮助您构建一个高效和有效的数据lakehouse提供现代数据和人工智能需要实现您的业务目标。如果你不熟悉数据lakehouse,一个新的、开放架构,您可以阅读更多关于它博客

在我们开始之前,它有利于定义我们所说的指导原则。指导原则是0级别的规则定义和影响你的架构。他们在一定程度上反映企业的各利益相关者之间的共识,形成未来的数据和艾城的架构决策的基础。让我们探索六个指导原则我们建立基于个人的观察和直接从客户的见解。

原则1:牧师数据和提供可信Data-as-Products

规划数据通过建立分层(种)架构是一个关键lakehouse最佳实践,因为它允许数据团队结构的数据根据每层质量水平和定义的角色和职责。一个共同的分层方法是:

  • 原始层:源数据被吸收进入Lakehouse进入第一层,应该坚持。当创建所有下游数据从原始层,重建的后续层这一层是可能的,如果需要的话。
  • 策划层:第二层的目的是保持洁净,精制、过滤和聚合数据。这一层的目标是提供一个良好的、可靠的基础分析和报告所有的角色和功能。
  • 最后一层:第三层创建业务或项目需求;它提供了一个不同的观点作为数据产品到其他业务单位或项目,准备数据安全需求(如匿名数据)或优化性能(例如视图)进行聚合。在这一层的数据产品业务被视为真理。
图1:数据质量,以及相信数据,提高数据的进展通过层。

管道在所有层需要确保数据质量约束得到满足(我。e数据是准确的,完整的、可访问的和一致的时刻),即使在并发的读和写。验证新数据时发生数据进入策划层,和下面的ETL步骤工作要提高这些数据的质量。
重要的是要注意,数据质量需要增加数据通过层和进展,因此,数据的信任将随后从业务的角度来看。

原则2:删除数据竖井和减少数据移动

数据移动、复制和重复需要时间,可能减少Lakehouse中数据的质量,尤其是当它会导致数据仓库。做出明确的数据副本之间的区别和筒仓的数据,一个独立的或一次性的副本数据并不是有害的。提高敏捷性,有时是必要的实验和创新。当这些副本操作与下游业务数据产品依赖他们,他们成为数据仓库。

为了防止数据仓库、数据团队通常试图建立一种机制或数据管道保持与原有的所有副本同步。因为这可能不会发生,数据质量最终会降低。这最终导致更高的成本和重大损失由用户的信任。另一方面,一些业务用例需要数据共享,例如,与合作伙伴或供应商。bob体育外网下载一个重要方面是安全可靠地共享最新版本的数据。副本的数据往往是不够的,因为他们成为例如快速同步。相反,数据应该通过企业数据共享工具共享。

图2:Lakehouses功能,允许业务用户查询数据,以及与合作伙伴分享。bob体育外网下载

原则3:民主化价值创造通过自助服务体验

现在,甚至在未来,企业已经成功地搬到一个数据驱动的文化会茁壮成长。这意味着每一个业务单位的决策分析模型或来自分析自己的或集中提供数据。对于消费者来说,数据必须和安全地访问轻易发现。一个好的概念数据生产者是“数据作为一个产品”;数据将被提供和维护一个业务单位或业务合作伙伴产品和被其他党派——适当的权限控制。而不是依靠核心团队和潜在的请求过程缓慢,需要创建这些数据产品,提供、发现和使用自助服务体验。

然而,它不仅是重要的数据。民主化的数据需要合适的工具,使每个人都生成或使用和理解这些数据。的核心数据Lakehouse现代数据和人工智能平台,提供基础设施和工具构建数据产bob体育客户端下载品没有重复的努力建立另一个工具堆栈。

图3:Lakehouse允许数据团队构建数据产品,可以通过自助服务体验。

原则4:采用组织范围的数据治理策略

数据治理是一个广泛的领域,值得单独的博客。然而,维数据质量、数据目录访问控制发挥重要作用。让我们深入每一个。

数据质量
最重要的先决条件正确和有意义的报告,分析结果和模型是高质量的数据。质量保证(QA)需要存在在所有管道的步骤。如何执行的例子包括数据合同,满足sla和保持稳定控制的方式和发展模式。

数据目录
另一个重要方面是数据发现:用户在所有业务领域,特别是在自助服务模式,需要能够轻易发现相关数据。因此,Lakehouse需要数据目录覆盖所有与业务相关的数据。数据目录的主要目标如下:

  • 确保相同的经营理念统一被称为跨业务并宣布。你可能会认为它是一个语义模型的策划和最后一层。
  • 跟踪数据沿袭精确,这样用户可以解释这些数据如何到达他们当前的形状和形式。
  • 保持高质量的元数据,它是数据本身一样重要的正确使用数据。

访问控制
的价值创造中的数据Lakehouse发生在所有业务领域,Lakehouse需要建立以安全作为一个一流的公民。公司可能有一个更开放的数据访问政策和严格遵循最小特权原则。独立的数据访问控制需要在每一层。重要的是实现纹理细密许可计划从一开始(列和行级的访问控制,基于角色的或基于属性的访问控制)。公司仍然可以开始用更少的严格的规则。但随着Lakehouse平台,所有机制和流bob体育客户端下载程转移到更复杂的安全制度应该已经到位。此外,所有访问Lakehouse中的数据需要由从一开始审计日志。

图4:Lakehouse治理不仅有很强的访问控制,而且还可以跟踪数据沿袭。

原则5:鼓励使用开放的接口和开放格式

开放接口的关键使互操作性和防止依赖任何单一供应商。传统上,供应商建立专有技术和关闭接口,有限的企业他们可以存储的方式,过程和共享数据。

构建在开放接口可以帮助您构建未来:(i)增加数据的寿命和可移植性,这样您就可以使用它和更多的应用程序更多的用例。(2)打开一个生态系统的伴侣可以迅速利用开放接口将他们的工具bob体育外网下载集成到Lakehouse平台。bob体育客户端下载最后,通过标准化的开放格式数据,总成本将大大降低;一个可以直接访问数据云存储而不需要管它通过专有平台,能够承担高出口和计算成本。bob体育客户端下载

图5:Lakehouse是建立在开放资源和开放接口更容易与第三方bob下载地址工具的集成。

原则6:建设规模和优化性能和成本

标准ETL流程、业务报告和仪表板通常有一个可预测的资源需要从内存和计算的角度。然而,新项目,季节性任务或现代方法像模型训练(生产、预测、维修)将生成的资源需求。使业务能够执行所有这些工作负载,一个可伸缩的平台内存和计算是必要的。bob体育客户端下载需要添加新的资源容易对需求,只有实际的消费应该生成成本。一旦高峰已经过去,又可以释放资源,成本相应降低。通常,这被称为水平扩展(更少或更多的节点)和垂直扩展(更大或更小的节点)。

比例还使企业能够提高查询的性能通过选择节点与多个节点进行更多的资源或集群。而是永久提供大型机械和集群的他们只能供应需求所需的时间来优化成本比率的整体性能。另一个方面优化存储和计算资源。由于没有明确的数据量之间的关系和工作负载使用这些数据(例如只使用部分数据或做密集计算在小数据),这是一个很好的实践,解决基础设施平台,将存储和计算资源bob体育客户端下载

图6:Lakehouse分离存储形式计算以及利用弹性计算更好的可伸缩性。

为什么砖Lakehouse

砖平台是一个本地数据Lakehbob体育客户端下载ouse平台,建立了从地面到提供所有必需的功能,使数据团队有效地提供自助服务的数据产品。它结合了数据仓库和数据的最好特性湖泊作为一个单一的解决方案对所有主要数据的工作量。支持用例范围从流BI分析,数据科学和人工智能。砖Lakehouse的目标有三个主要目标:

  • 简单——统一数据,用例分析和人工智能在单一平台bob体育客户端下载
  • 开放——建立在开源和开放标准bob下载地址
  • 多重云——一个一致的数据在云平台bob体育客户端下载

它使团队容易合作和带有集成功能,触摸你的数据产品的完整生命周期,包括数据摄入、数据处理、数据管理和数据发布/共享。你可以阅读更多关于砖Lakehouse在这里

免费试着砖

相关的帖子

看到所有最佳实践的帖子