使用AWS胶作为砖的一个目录
发现数据在所有你的服务,你需要一个强大的目录能够发现和访问数据。AWS胶服务是一个Apache-compatible蜂巢serverless metastore,允许您轻松地在AWS服务,共享表元数据的应用程序或AWS帐户。砖和三角洲湖与AWS胶发现集成数据在你的组织和注册数据砖之间在三角洲湖和发现数据实例。
优点之一
砖是预先集成与AWS胶水
简单的
简化了管理通过使用相同的AWS胶跨多个砖工作区目录。
Securiser
集成安全通过身份和访问管理凭据直通AWS胶元数据。详细说明,请参阅砖的博客介绍砖AWS我凭据直通。
协作
更容易访问元数据在亚马逊在AWS服务和访问数据编目胶水。
砖三角洲湖与AWS核心服务的集成
该参考实现展示了独特的定位数据砖三角洲湖与AWS集成核心服务,帮助您解决最复杂的数据湖的挑战。三角洲湖上面运行的S3,集成与亚马逊运动,AWS胶水,亚马逊雅典娜,亚马逊红移和亚马逊QuickSight,仅举几例。
如果您是三角洲湖,你可以BOB低频彩学习更多在这里。
把砖与AWS胶水
步骤1
如何配置一个砖集群访问AWS胶目录吗
发射
第一次启动砖计算集群必要的AWS胶目录我的角色。我的角色和政策需求中明确提出以循序渐进的方式砖AWS胶Metastore文档。
在这个示例中,创建一个叫做Field_Glue_Role AWS IAM的作用,也有授权访问S3 bucket。把角色集群配置,作为演示视频中描述。
更新
接下来,火花配置属性集群的配置必须设置集群启动前,如何更新视频所示。
步骤2
HSetting AWS胶数据库使用砖笔记本
步骤3
创建一个三角洲湖表,并使用相同的metastore清单文件
创建和目录
创建和目录表直接从笔记本到AWS胶数据目录。指AWS胶填充数据目录创建和使用爬虫编目表。
这里的演示数据集是来自电影推荐网站MovieLens,这是由电影评级。创建一个DataFrame python代码。
步骤4
查询使用亚马逊雅典娜三角洲湖表
结论
整合AWS胶提供了一个强大的serverless metastore所有企业战略使用AWS的生态系统。提高数据的可靠性湖泊三角洲湖和提供无缝、serverless数据访问通过集成与亚马逊雅典娜。砖Lakehouse平台大国战略AWS湖,使数据分bob体育客户端下载析师、工程师和数据科学家获得性能和可靠的数据访问。