连接到StreamSets

预览

这个特性是在公共预览

StreamSets帮助你管理和监控数据流数据的整个生命周期。StreamSets本机与砖的集成和三角洲湖允许您将数据从各种来源和管理你的管道。

StreamSets的综合演示程序,请看下面的YouTube视频(10分钟)。

这是用StreamSets砖的步骤。

第一步:生成一个砖个人访问令牌

StreamSets验证使用砖与砖的个人访问令牌。生成一个个人访问令牌,按照说明砖个人访问令牌。另请参阅管理个人访问令牌

请注意

作为一个安全最佳实践,验证自动化工具时,系统中,脚本和应用程序,砖属于建议您使用访问令牌服务主体而不是用户工作区。为服务主体,创建访问令牌管理服务主体的访问令牌

第二步:建立一个集群支持集成需求

StreamSets将数据写入一个S3 bucket和砖集成的集群将从该位置读取数据。因此集成集群需要安全访问S3 bucket。

安全访问S3 bucket

AWS资源的访问,你可以启动砖集成集群实例的配置文件。实例配置文件应该访问分期S3 bucket和目标S3 bucket,你想写三角洲表。创建一个实例配置文件和配置集成集群使用的角色,按照说明S3访问配置实例配置文件

作为一种替代方法,您可以使用我凭证透传,使特定于用户的访问S3数据从一个共享集群。

指定集群配置

  1. 集群模式标准

  2. 砖的运行时版本的运行时:6.3或以上。

  3. 启用自动优化你通过添加以下属性火花配置:

    spark.databricks.delta.optimizeWrite.enabled真实spark.databricks.delta.autoCompact.enabled真实
  4. 配置您的集群根据您的集成和扩展的需要。

集群配置的细节,请参阅配置集群

看到检索连接细节的步骤来获得JDBC URL和HTTP路径。

第三步:获得JDBC、ODBC连接细节连接到一个集群

连接一个砖集群StreamSets需要JDBC / ODBC连接属性如下:

  • JDBC URL

  • HTTP路径

第四步:获得StreamSets砖

报名StreamSets为砖,如果你不已经有一个StreamSets帐户。你可以开始免费升级当你准备好;看到StreamSets DataOps平bob体育客户端下载台定价

第五步:了解如何使用StreamSets数据加载到三角洲湖

从样本管道或检查StreamSets解决方案学习如何构建一个数据管道吸入到三角洲湖。

额外的资源

支持