连接流SETS

预览

特征显示公开预览.

流帮助您管理并监控数据流整个生命周期streamSet本地集成Databricks和Delta湖允许你从各种源码提取数据并轻松管理管道

StreamSets泛泛演示, 观看以下YouTube视频(10分钟)。

台阶使用 Databricks

步骤1:生成数据键个人访问令牌

streamSet使用数据bricks个人访问令牌认证数据bricks

注解

数据bricks建议使用OAUT令牌或个人访问令牌服务主体代之以工作空间用户创建服务主体令牌见托管令牌服务本金.

步骤2:建立集群支持整合需求

streamSet将数据写进S3桶中,Databricks集成集群从该位置读取数据集成集群需要安全访问S3桶

安全访问S3桶

存取 AWS资源时,可启动带实例剖面图的Databricks集成集群实例剖面图应存取中转S3桶和目标S3桶创建实例剖析并配置集使用角色配置S3访问实例简介.

作为一种替代方法,您可使用IAM证书传递帮助用户访问共享集群S3数据

指定集群配置

  1. 集成集群模式标准类.

  2. 集成Databricks运行时版本运行时间:6.3或以上

  3. 激活优化写自压缩通过向您的属性添加下列属性spark配置:

    spark.databricks.delta.optimizeWrite.enabled truespark.databricks.delta.autoCompact.enabled true
  4. 配置集群取决于您的整合和缩放需求

集群配置细节见创建集群.

看吧取回连接细节步骤获取JDBC URL和HTTP路径

步骤3:获取JDBC和ODBC连接细节连接集群

数据bricks集群连接流需要JDBC/ODBC连接属性

  • JDBC URL

  • HTTP路径

步骤4:获取流数据键

签名For流数据键中,if you don't have a streamSets账号准备后可以免费启动升级看吧bob体育客户端下载流数据Ops平台定费.

步骤5:学习流Set向三角湖加载数据

开始采样管道或检验流SET解决方案学习如何搭建管道 将数据注入三角洲湖

追加资源

支持