
Databricks在AWS上运行,并与您使用的所有主要服务集成,如S3, EC2, Redshift等。在这个演示中,我们将向您展示Databricks如何简单而无缝地与这些服务集成,从而使您能够构建湖畔小屋架构。
视频记录
Databricks Lakehouse关于AWS的概述
Databricks Lakehouse平台位于Abob体育客户端下载WS生态系统的核心,可以轻松集成流行的数据+ AI服务,如Kinesis流、S3桶、Glue、Athena、Redshift、QuickSight等。在这个演示中,我们将向您展示Databricks如何以简单、无缝的方式与这些服务集成。
连接EC2、S3、Glue和IAM
当我们在Databricks上启动Spark集群时,我们可以将其配置为使用Glue Data Catalog,并将其附加到一个IAM实例配置文件,该配置文件允许Databricks提供和管理EC2实例、S3桶和其他AWS服务。
在与AWS Databricks合作时,我们要做的第一件事就是在您的虚拟私有云中建立一个Spark集群,它可以随着数据工作负载的变化自动伸缩以控制云成本。Databricks Spark集群在后端使用EC2实例,您可以将它们配置为使用AWS Glue Data Catalog。您还可以在集群上设置AWS实例配置文件,以控制和管理对S3桶和其他资源的访问。
点击展开文字记录→
点击折叠文本→
摄取运动流到三角洲湖
现在我们的自动伸缩Spark集群已经启动并运行,让我们开始使用Spark Structured Streaming和内置databicks - Kinesis连接器,用几行代码从Kinesis流中摄取实时数据。首先,我们将查看流DataFrame中的一些原始数据。接下来,我们可以使用这里看到的代码将其以Delta Lake格式保存到存储在S3中的Delta Lake Bronze表中。Delta Lake是lakehouse体系结构的基础,提供云对象存储上的ACID事务,以及统一批处理和流数据处理的表,以简化数据体系结构。
在Glue控制台中查看Delta Lake表
通过在笔记本中运行SHOW TABLES命令,或者单击Data选项卡并导航到存储表的数据库,我们可以在Databricks中查看刚才创建的表。由于我们将集群设置为与AWS Glue Data Catalog集成,所以我们还可以直接在Glue控制台中查看这些Delta Lake表。当我们搜索它们时,您可以看到我们在Databricks中查看的所有表现在都出现在Glue中。
数据-红移集成
Databricks还可以轻松处理存储在Redshift数据仓库中的数据。在这里,我们使用内置的Databricks Redshift连接器将一些示例数据写入Redshift。我们也可以使用相同的连接器从Redshift中读取。或者,你也可以从Databricks中选择PostgreSQL连接器或Redshift数据API来做同样的事情。或者我们可以跳转到Redshift控制台并查询我们刚刚从Databricks创建的表。
Databricks - QuickSight集成
最后,我们还可以从Databricks连接到AWS QuickSight仪表板,以可视化的方式探索我们的数据,并创建有吸引力的仪表板和报告。
结论
正如我们所看到的,Databricks提供了一个简单、开放和协作的湖屋平台,与您的所有AWS服务深度集成。bob体育客户端下载点击下面描述中的链接,在Databricks demo Hub上下载本演示中使用的笔记本电脑。或者访问www.neidfyre.com/try在AWS上免费试用Databricks。

准备开始了吗?

