连接至资讯工场

预览

此功能已在公共预览

Infoworks DataFoundry是一个自动化的企业数据操作和编排系统,本机运行在Databricks上,充分利用Databricks的全部功能,为数据上船提供一个简单的解决方案——这是操作数据湖的重要第一步。DataFoundry不仅自动化了数据摄取,而且自动化了必须伴随摄取的关键功能,从而为分析奠定基础。DataFoundry的数据录入自动化:

  • 数据摄取:来自所有企业和外部数据源

  • 数据同步:CDC保持数据与源同步

  • 数据治理:编目、沿袭、元数据管理、审计和历史记录

以下是在Databricks中使用Infoworks的步骤。

步骤1:生成Databricks个人访问令牌

Infoworks使用Databricks个人访问令牌对Databricks进行身份验证。要生成个人访问令牌,请遵循数据库个人访问令牌.另请参阅管理个人访问令牌

请注意

作为安全最佳实践,当使用自动化工具、系统、脚本和应用程序进行身份验证时,Databricks建议您使用属于的访问令牌服务主体而不是工作区用户。要为服务主体创建访问令牌,请参见管理服务主体的访问令牌

步骤2:设置集群以支持集成需求

Infoworks将把数据写入S3桶,Databricks集成集群将从该位置读取数据。因此,集成集群需要对S3桶的安全访问。

安全访问S3桶

要访问AWS资源,可以使用实例概要启动Databricks集成集群。实例概要文件应该能够访问登台S3存储桶和目标S3存储桶,您希望在其中写入Delta表。要创建实例概要文件并配置集成集群以使用角色,请遵循使用实例概要配置S3访问

作为替代,你可以使用IAM证书传递,它支持从共享集群访问特定于用户的S3数据。

指定集群配置

  1. 集群模式标准

  2. Databricks运行时版本到Databricks运行时版本。

  3. 启用自动优化将以下属性添加到您的火花配置

    spark.databricks.delta.optimizeWrite.enabled真实spark.databricks.delta.autoCompact.enabled真实
  4. 根据集成和扩展需求配置集群。

集群配置请参见配置集群

看到检索连接详细信息参阅获取JDBC URL和HTTP路径的步骤。

步骤3:获取连接到集群的JDBC和ODBC连接详细信息

要将Databricks集群连接到Infoworks,您需要以下JDBC/ODBC连接属性:

  • JDBC URL

  • HTTP路径

步骤4:为Databricks获取Infoworks

Infoworks了解更BOB低频彩多并获得演示。

额外的资源

支持