lakehouse编目数据

整个平台提供无缝的访问需要很强的目录服务器bob体育客户端下载

Essai gratuit系统规划一个演示

使用AWS胶作为砖的一个目录

发现数据在所有你的服务,你需要一个强大的目录能够发现和访问数据。AWS胶服务是一个Apache-compatible蜂巢serverless metastore,允许您轻松地在AWS服务,共享表元数据的应用程序或AWS帐户。砖和三角洲湖与AWS胶发现集成数据在你的组织和注册数据砖之间在三角洲湖和发现数据实例。

优点之一

砖是预先集成与AWS胶水

简单的

简化了管理通过使用相同的AWS胶跨多个砖工作区目录。

Securiser

集成安全通过身份和访问管理凭据直通AWS胶元数据。详细说明,请参阅砖的博客介绍砖AWS我凭据直通。

协作

更容易访问元数据在亚马逊在AWS服务和访问数据编目胶水。

砖三角洲湖与AWS核心服务的集成

该参考实现展示了独特的定位数据砖三角洲湖与AWS集成核心服务,帮助您解决最复杂的数据湖的挑战。三角洲湖上面运行的S3,集成与亚马逊运动,AWS胶水,亚马逊雅典娜,亚马逊红移和亚马逊QuickSight,仅举几例。

如果您是三角洲湖,你可以BOB低频彩学习更多在这里

aws胶集成呼叫

把砖与AWS胶水

步骤1

如何配置一个砖集群访问AWS胶目录吗

发射

第一次启动砖计算集群必要的AWS胶目录我的角色。我的角色和政策需求中明确提出以循序渐进的方式砖AWS胶Metastore文档

在这个示例中,创建一个叫做Field_Glue_Role AWS IAM的作用,也有授权访问S3 bucket。把角色集群配置,作为演示视频中描述。

更新

接下来,火花配置属性集群的配置必须设置集群启动前,如何更新视频所示。

步骤2

HSetting AWS胶数据库使用砖笔记本

附加

AWS胶之前创建一个数据库,将集群附加到你的笔记本,在上一步中创建和测试您的设置与这里显示的命令。

验证

然后验证相同的数据库使用AWS胶控制台显示列表和列表的数据库。

验证

创建一个新的AWS胶水直接从笔记本电脑数据库,并验证新的AWS胶数据库已经被该证演出成功创建数据库。AWS胶数据库也可以通过查看数据窗格。

步骤3

创建一个三角洲湖表,并使用相同的metastore清单文件

创建和目录

创建和目录表直接从笔记本到AWS胶数据目录。指AWS胶填充数据目录创建和使用爬虫编目表。

这里的演示数据集是来自电影推荐网站MovieLens,这是由电影评级。创建一个DataFrame python代码。

年代'INSCRIRE

然后注册DataFrame临时表和访问它使用SQL命令。

三角洲湖

现在创建一个三角洲湖表使用前面步骤中创建的临时表和SQL命令。

注意:很容易创建一个三角洲湖表中描述三角洲湖快速入门指南

为亚马逊雅典娜生成一个清单

现在生成manifest文件要求亚马逊雅典娜使用以下步骤。

1。通过运行Scala方法生成体现。记得前缀的细胞% scala如果你有
创建了一个python, SQL或R笔记本。

2。创建一个表在蜂房里metastore连接

雅典娜使用特殊的格式SymlinkTextInputFormat和清单文件位置。

在示例代码中,创建清单文件s3a: / / aws-airlifts / movies_delta _symlink_format_
清单/文件的位置。

步骤4

查询使用亚马逊雅典娜三角洲湖表

亚马逊雅典娜

雅典娜是一个serverless服务,不需要任何基础设施管理和维护。因此,您可以查询三角洲表不需要砖集群运行。

从亚马逊雅典娜控制台,选择数据库,然后预览表如视频所示。

结论

整合AWS胶提供了一个强大的serverless metastore所有企业战略使用AWS的生态系统。提高数据的可靠性湖泊三角洲湖和提供无缝、serverless数据访问通过集成与亚马逊雅典娜。砖Lakehouse平台大国战略AWS湖,使数据分bob体育客户端下载析师、工程师和数据科学家获得性能和可靠的数据访问。

成衣的你们长矛兵?

Essai gratuit

资源

视频

观察

Temoignage de客户

里拉la套件