连接到同步排序

预览

此功能已在公共预览．

Syncsort通过将遗留数据、大型机和IBM数据与Databricks集成在一起，帮助您打破数据孤岛。您可以轻松地将这些来源的数据提取到Delta Lake中。

下面是使用Databricks同步排序的步骤。

步骤1:生成Databricks个人访问令牌

Syncsort使用Databricks个人访问令牌对Databricks进行身份验证。要生成个人访问令牌，请遵循数据库个人访问令牌．另请参阅管理个人访问令牌．

请注意

作为安全最佳实践，当使用自动化工具、系统、脚本和应用程序进行身份验证时，Databricks建议您使用属于的访问令牌服务主体而不是工作区用户。要为服务主体创建访问令牌，请参见管理服务主体的访问令牌．

Syncsort将数据写入S3桶，Databricks集成集群将从该位置读取数据。因此，集成集群需要对S3桶的安全访问。

要访问AWS资源，可以使用实例概要启动Databricks集成集群。实例概要文件应该能够访问登台S3存储桶和目标S3存储桶，您希望在其中写入Delta表。要创建实例概要文件并配置集成集群以使用角色，请遵循使用实例概要配置S3访问．

作为替代，你可以使用IAM证书传递，它支持从共享集群访问特定于用户的S3数据。

启用自动优化将以下属性添加到您的火花配置：

                spark.databricks.delta.optimizeWrite.enabled真实spark.databricks.delta.autoCompact.enabled真实
               

集群配置请参见配置集群．

看到检索连接详细信息参阅获取JDBC URL和HTTP路径的步骤。

要将Databricks集群连接到同步排序，您需要以下JDBC/ODBC连接属性:

去Databricks和Connect for大数据登录页面并按照说明操作。