公司博客上

使用Azure Databricks和Azure Data Factory将90+数据源连接到您的数据湖

2020年3月6日 公司博客上

分享这篇文章

数据的湖泊通过安全及时地访问各种各样的数据源,使组织能够始终如一地交付价值和洞察力。这一旅程的第一步是使用健壮的数据管道编排和自动化摄取。随着数据量、种类和速度的迅速增加,更需要可靠和安全的管道来提取、转换和加载(ETL)数据。

Databricks客户每月处理超过2eb(20亿gb)的数据Azure砖是目前微软Azure上增长最快的数据和人工智能服务。Azure Databricks与其他Azure服务之间的紧密集成使客户能够简化和扩展其数据摄取管道。例如,与Azure Active Directory (Azure AD)的集成可以实现一致的基于云的身份和访问管理。此外,与Azure数据湖存储(ADLS)的集成为用户提供了高度可伸缩和安全的存储大数据分析, Azure数据工厂(ADF)支持混合数据集成,以大规模简化ETL。

批处理ETL与微软Azure数据工厂和Azure Databricks
图:批处理ETL与Azure数据工厂和Azure数据

使用单个工作流连接、摄取和转换数据

ADF包括90+内置数据源连接器并无缝运行Azure Databricks笔记本,将所有数据源连接并吸收到单个数据湖中。ADF还提供了内置的工作流控制、数据转换、管道调度、数据集成以及更多功能,以帮助您创建可靠的数据管道。ADF使客户能够以原始格式获取数据,然后通过Azure Databricks和Delta Lake将其数据提炼并转换为青铜表、银表和金表。例如,客户经常使用ADF与Azure Databricks Delta Lake一起启用数据湖上的SQL查询为了建造用于机器学习的数据管道

青铜,银和金表与Azure Databricks, Azure数据工厂和Delta Lake

Azure Databricks和Azure数据工厂入门

要使用Azure数据工厂运行Azure Databricks笔记本,请导航到Azure门户并搜索“数据工厂”,然后单击“创建”定义一个新的数据工厂。

从Azure门户创建数据工厂

接下来,为数据工厂提供唯一的名称,选择订阅,然后选择资源组和区域。单击“创建”。

定义一个新的数据工厂

创建之后,单击“Go to resource”按钮查看新的数据工厂。

数据工厂部署完成后,单击“转到资源”

现在通过单击“Author & Monitor”tile打开Data Factory用户界面。

准备编写和监视数据工厂

在Azure数据工厂“Let 's get started”页面中,单击左侧面板中的“Author”按钮。

让我们开始吧

接下来,点击屏幕底部的“连接”,然后点击“新建”。

数据工厂连接

在“新建链接服务”窗格中,单击“计算”选项卡,选择“Azure Databricks”,然后单击“继续”。

Azure Databricks链接计算服务

为Azure Databricks链接服务输入一个名称并选择一个工作空间。

命名Azure Databricks链接服务

通过单击屏幕右上角的用户图标,然后选择“用户设置”,从Azure Databricks工作区创建一个访问令牌。

用户设置

点击“生成新令牌”。

生成新令牌

将令牌复制并粘贴到链接的服务表单中,然后选择集群版本、大小和Python版本。检查所有设置,然后单击“创建”。

选择集群版本、节点类型和Python版本

链接服务就绪后,就可以创建管道了。在Azure Data Factory UI中,点击加号(+)按钮并选择“Pipeline”。

添加ADF管道

通过单击“Parameters”选项卡添加参数,然后单击加号(+)按钮。

添加管道参数

接下来,通过展开“Databricks”活动向管道添加一个Databricks笔记本,然后将一个Databricks笔记本拖放到管道设计画布上。

通过选择“Azure Databricks”选项卡并选择上面创建的链接服务来连接到Azure Databricks工作区。接下来,点击“Settings”选项卡指定笔记本路径。现在单击“Validate”按钮,然后单击“Publish All”,将其发布到ADF服务。

验证ADF数据管道

将更改发布到工厂

一旦发布,通过点击“Add trigger | trigger now”来触发管道运行。

触发管道运行

检查参数,然后单击“Finish”以触发管道运行。

设置参数并触发管道运行

现在切换到左侧面板上的“Monitor”选项卡,查看管道运行的进度。

监控管道运行情况

将Azure Databricks笔记本集成到Azure数据工厂管道中,提供了一种灵活且可扩展的方式来参数化和操作自定义ETL代码。有关ABOB低频彩zure Databricks如何与Azure数据工厂(ADF)集成的更多信息,请参见这篇ADF博客文章而且ADF教程.要了解BOB低频彩更多关于如何探索和查询数据湖中的数据,请参阅此网络研讨会,使用SQL查询Delta Lake的数据湖

免费试用Databricks

相关的帖子

看到所有公司博客上的帖子