bob体育客户端下载平台的博客

从基于云的Hadoop迁移到Databricks Lakehouse平台的7个原因bob体育客户端下载

分享这篇文章

在过去几年中,许多企业已经将其遗留的预置Hadoop工作负载迁移到基于云的托管服务,如EMR、HDInsight或DataProc。然而,客户已经开始认识到,他们在预置Hadoop环境中面临的相同挑战(如可靠性和可伸缩性)也继承到了他们现有的基于云的Hadoop平台中。bob体育客户端下载他们观察到,任何集群启动都需要很长时间来准备,在高峰时段自动伸缩甚至需要更多时间。因此,它们维护长时间运行、配置过多的集群来管理工作负载需求。大量时间花在故障排除、基础设施、资源管理开销以及在云中拼接不同的托管服务以维护端到端管道上。

最后,这会导致资源浪费,使安全和治理复杂化,并增加不必要的成本。客户最终希望他们的数据团队能够专注于解决业务挑战,而不是解决遗留的Hadoop平台问题。bob体育客户端下载

在本博客中,我们将讨论从基于云的Hadoop平台迁移到基于云的Hadoop平台的价值和好处bob体育客户端下载Databricks湖屋平台bob体育客户端下载

以下是考虑从这些基于云的Hadoop服务迁移到Databricks的一些显著好处和理由。

  • 使用Lakehouse平台简化您的架构bob体育客户端下载
  • 集中式数据治理和安全性
  • 所有数据工作负载的最佳性能
  • 提高生产率和业务价值
  • 用数据和人工智能推动创新
  • 一个与云无关的平台bob体育客户端下载
  • Databricks合作伙伴生态系统的好处

让我们更详细地讨论并了解这7个原因。

1)使用Lakehouse平台简化您的架构bob体育客户端下载

Databricks Lakehouse平bob体育客户端下载台结合数据湖和数据仓库的最佳元素,提供数据仓库的可靠性、治理和性能,以及数据湖的开放性、灵活性和机器学习支持。

通常,基于云的Hadoop平台用于特定的用例,如数据bob体育客户端下载工程,并且需要使用其他服务和产品来增强流、BI和数据科学用例。这导致了一个复杂的体系结构,创建了数据竖井和孤立的团队,带来了安全和治理挑战。

Lakehouse平台提供了bob体育客户端下载一种统一的方法简化了通过消除这些复杂性来构建数据堆栈。

Lakehouse平台提供了bob体育客户端下载一种统一的方法,通过消除数据仓库、工程、流和数据科学/机器学习用例的复杂性,简化了现代数据堆栈。

2)集中数据治理和安全

Databricks通过Unity Catalog为lakakehouse数据带来细粒度治理和安全性。Unity Catalog允许组织使用标准ANSI SQL或简单的UI来管理细粒度的数据权限,使他们能够安全地解锁他们的湖屋。它跨云和数据类型统一工作。

Unity Catalog超越了仅仅管理表到其他数据资产,如机器学习模型和文件。因此,企业可以简化管理所有数据和人工智能资产的方式。它是企业的一个关键架构原则,也是客户迁移到Databricks而不是使用基于云的Hadoop平台的关键原因之一。bob体育客户端下载

Databricks通过Unity Catalog为lakakehouse数据带来细粒度治理和安全性。

在高层次上,统一目录提供以下关键功能:

  • 集中的元数据和用户管理
  • 集中的数据访问控制
  • 数据沿袭
  • 数据访问审计
  • 数据搜索和发现
  • 使用Delta sharing安全数据共享

除了Unity Catalog, Databricks还有表访问控制(TACLs),IAM角色凭据传递使您能够满足您的数据治理需求。欲了解更多详情,请访问数据治理文档

此外,与三角洲湖,你会自然而然地从中获益模式强制和模式演变支持开箱即用。

使用三角洲分享,您可以安全地跨组织实时共享数据,而不依赖于数据所在的平台。bob体育客户端下载它本机集成到Databricks Lakehouse平台,因此您可以在一个平台上集中发现、管理和治理所有共享数据bob体育客户端下载。

3)所有数据负载的最佳性能

通过迁移到Databricks,客户可以获得一流的性能光子引擎,它以低成本为所有类型的工作负载直接提供高速查询性能。

  • 使用Photon,大多数分析工作负载可以达到或超过数据仓库的性能,而无需将数据转移到数据仓库中。
  • Photon与Apache Spark™api和SQL兼容,因此启动它就像打开它一样简单。
  • Photon从头开始用c++编写,利用现代硬件实现更快的查询,提供比其他云数据仓库更好的价格/性能。如欲了解更多详情,请浏览博客data-warehousing-performance-record

除此之外,Databricks增强自动缩放根据工作负载量自动分配集群资源,从而优化集群利用率,对管道的数据处理延迟的影响最小。集群伸缩是基于云的Hadoop平台的一个重要问题,在某些情况下,自动伸缩需要30分钟。bob体育客户端下载

由于Databricks的性能优于基于云的Hadoop平台,因此总体拥有成本大幅降低。bob体育客户端下载客户同时意识到减少的基础设施支出和更好的价格/性能。

4)提高生产率和商业价值

当客户迁移到Databricks时,他们可以更快地移动、更好地协作和更有效地操作。

  • Databricks消除了限制分析师、数据科学家和数据工程师之间协作的技术障碍,使数据团队能够更有效地一起工作。客户看到数据科学家、数据工程师和sql分析师的生产率提高,从而消除了手工开销。
  • Databricks的客户通过支持数据工程、数据科学和BI团队构建端到端管道,大大加快了实现价值的时间,并增加了收入。另一方面,他们意识到使用基于云的Hadoop平台是不可能达到同样的效果的,因为必须将多个服务拼接在一起才能交付所需的数据产品。bob体育客户端下载

随着生产力的提高,Databricks帮助解锁新的业务用例,加速和扩展面向业务用例的价值实现。

Forrester最近的一项研究题为Databricks统一数据分析平台的总经济影响™(TEI)bob体育客户端下载发现部署Databricks的组织几乎实现了总经济效益2900万美元和一个投资回报率为417%在三年的时间里。他们还得出结论,Databricks平台在不到6个月的时间内就能收回成本。bob体育客户端下载

5)用数据和人工智能推动创新

Databricks是一个全面、统一的平台,可以满足从数据中传递业务价值的所有bob体育客户端下载关键角色,如数据工程师、数据科学家和ML工程师,以及SQL和BI分析师。数据团队的任何成员都可以快速构建端到端数据管道,从数据摄取、管理、特性工程、模型训练和验证到在Databricks中部署。在此基础上,利用Lakehouse架构,数据处理可以在批处理和流处理中互换实现。

与基于云的Hadoop平台不同,Databricksbob体育客户端下载不断努力创新,为用户提供现代化的数据平台体验。以下是Databricks平台的一些重要功能:bob体育客户端下载

Lakehouse互操作性使用δ在任何云存储上

Delta Lake是一种开放格式的存储层,可为您的数据湖提供可靠性、安全性和性能—用于流处理和批处理操作。通过用结构化、半结构化和非结构化数据的单一存储空间取代数据孤岛,Delta Lake是一个具有成本效益、高度可扩展的湖屋的基础。与其他开放格式存储层(如Iceberg和Hudi)相比,Delta Lake是Lakehouse体系结构中性能最好、应用最广泛的格式。

使用ETL开发Delta活动表

Delta Live Tables (DLT)是第一个ETL框架,它使用简单的声明性方法来构建可靠的数据管道并自动大规模管理基础设施,这样数据分析师和工程师就可以减少在工具上花费的时间,并专注于从数据中获取价值。有了DLT,工程师可以将数据视为代码,并应用现代软件工程最佳实践,如测试、错误处理、监控和文档,以大规模部署可靠的管道。

容易和自动数据摄取与自动加载程序

最常见的挑战之一是始终自动地从云存储中摄取和处理数据到您的Lakehouse。Databricks Auto Loader以流或批处理模式从云存储伸缩自动数据加载,简化了数据摄取过程。

将您的仓库引入数据湖使用砖的SQL

Databricks SQL (DB SQL)允许客户在其数据湖中运行多云湖屋架构,并提供比传统云数据仓库、开源大数据框架或分布式查询引擎高12倍的价格/性能。

管理完整的机器学习生命周期MLflow

MLflow是由Databricks开发的开源bob体育客户端下载平台,帮助管理完整的机器学习生命周期,具有企业可靠性、安全性和规模。人们立即意识到能够轻松地执行实验跟踪、模型管理和模型部署的好处。

自动化您的机器学习生命周期AutoML

Databricks AutoML允许您快速生成基线机器学习模型和笔记本。ML专家可以通过快速推进通常的试错和专注于使用他们的领域知识进行定制来加速他们的工作流程,而公民数据科学家可以通过低代码方法快速获得可用的结果。

建立你的特色商店在湖屋

Databricks为数据团队提供了创建新特性、探索和重用现有特性、将特性发布到低延迟在线存储、构建训练数据集以及使用Databricks特性存储检索用于批量推理的特性值的能力。它是一个集中的特性存储库。它支持跨组织共享和发现特征,并确保相同的特征计算代码用于模型训练和推断。

可靠的业务流程工作流

Databricks Workflows是为您的所有数据、分析和人工智能需求提供全面管理的编排服务。您可以在任何云上创建和运行可靠的生产工作负载,同时为最终用户提供简单的深度集中监控。工作流允许用户使用Delta Live Tables构建自动管理的ETL管道,包括摄取和沿袭。您还可以将notebook、SQL、Spark、ML模型和dbt的任意组合编排为Jobs工作流,包括对其他系统的调用。

6)云不可知的平台bob体育客户端下载

一个多重云战略对于需要一个开放平台来进行统一数据分析的组织来说,从输入到BI和AI,都是必不可少的。bob体育客户端下载

  • 对于多个云中的数据,组织不能受限于一个云的本地服务,因为它们的存在现在取决于驻留在云存储中的数据。
  • 组织需要一个多云平台,以一致的方式为所有团队提供可见性、控制、安全bob体育客户端下载和治理,而不管他们使用哪种云。
  • Databricks Lakehouse平台使客户bob体育客户端下载能够通过使用开放标准的统一数据平台利用多个云。

作为一个与云无关的平台,Databricbob体育客户端下载ks工作负载可以在任何云平台上相似地运行,同时利用每个云存储上的现有数据湖。作为用户,一旦将工作负载迁移到Databricks,就可以在任何云上交换使用相同的开放源代码。bob下载地址它降低了将您锁定在云原生Hadoop平台上的风险。bob体育客户端下载

7) Databricks Partner生态系统的好处

Databricks是现代数据堆栈的组成部分,它使数字原生代和企业能够快速调动数据资产以做出更明智的决策。它拥有丰富的合作伙伴生态系统(全球超过450个合作伙伴),可以在数据旅程的各个阶段无bob体育外网下载缝实现,从数据摄取、构建数据管道、数据治理、数据科学和机器学习到BI/仪表板。

在砖,合作伙伴联系允许您集成您的湖屋与流行的数据平台,如dbt, Fivetran, Tableau, Labelbox等,并设置它bob体育客户端下载在几次点击与预构建集成。

与基于云的Hadoop平台不同,使用Databricbob体育客户端下载ks,只需点击几下鼠标,您就可以构建端到端管道,并快速扩展您的湖屋的功能。要了解更多关于Databricks技术合作伙伴的信息,请访问bob体育外网下载www.www.neidfyre.com/technology

凭借其丰富的合作伙伴生态系统,Databricks允许您在数据旅程的各个阶段无缝地调动数据资产。

下一个步骤

从一个平台迁移到另一个平台并不是一个容bob体育客户端下载易做出的决定。它涉及到
评估当前架构,审查挑战和痛点,并验证新平台的适用性和可持续性。bob体育客户端下载然而,组织总是希望利用他们的数据做更多的事情,并通过赋予他们的数据团队创新技术来做更多的分析和人工智能,同时减少基础设施维护和管理负担,从而保持竞争力。为了实现这些近期和长期目标,客户需要一种解决方案,它超越了传统的预置或基于云的Hadoop解决方案。探索这篇博客中的7个原因,看看它们如何为你的业务带来价值。

从Hadoop迁移到傻瓜的数据湖屋
当您迁移到Lakehouse时,以更低的成本获得更快的见解。

免费试用Databricks

相关的帖子

看到所有bob体育客户端下载平台的博客的帖子