跳转到主要内容
bob体育客户端下载平台的博客

引入三角洲共享:一个开放的协议安全的数据共享

分享这篇文章

更新:三角洲分享现在一般用于AWS和Azure。

数据共享已成为在现代经济中至关重要,因为企业希望安全地交换数据与客户,供应商和合作伙伴。bob体育外网下载例如,一个零售商可能需要实时销售数据发布到供应商,或供应商可以共享实时库存。但到目前为止,数据共享是极其有限的,因为共享解决方案与一个单一的供应商。这对两个数据提供者和使用者产生摩擦,自然不同的平台上运行。bob体育客户端下载

今天,我们推出一个新的开源项目,简化了跨组织共享:bob下载地址三角洲分享,一个开放大型数据集的协议安全实时交换,使安全的数据共享在产品第一次。我们正在开发三角洲顶端与合作伙伴共享软件和数据提供者。bob体育外网下载

明白为什么今天的数据共享的解决方案创建摩擦,考虑一个零售商,想共享数据分析师供应商之一。今天,零售商可以使用多个云数据仓库提供的数据共享,但分析师会需要使用,安全,和采购团队部署相同的仓库产品的公司,这一过程可能需要数月时间。此外,一旦仓库部署,分析师会做的第一件事就是从它导出数据到他们最喜欢的数据科学工具,比如熊猫或表。

用户可以与δ共享,数据直接通过熊猫连接到共享数据,表,或许多其他系统实现开放协议,无需部署一个特定平台。bob体育客户端下载这样可以减少访问时间从几个月到分钟,并且极大地降低了数据提供者的工作想要达到尽可能多的用户。

我们正在与一个充满活力的生态系统合作伙伴三角洲共享,包括产品团队在领先的云,BI和数bob体育外网下载据供应商:

三角洲共享生态系统——Apache火花,大熊猫,转眼间,Trino,生锈,蜂巢,画面,BI, Qlik,美人,砖,微软Azure,谷歌BigQuery亮光,Dremio, AtScale, Immuta, Privacera, Alation, Collibra,纳斯达克(Nasdaq)、标准普尔,冰,纽交所,AWS, FactSet,准确地说,Atlassian, Foursquare,生物序列

在这篇文章中,我们将解释如何三角洲分享工作和为什么我们如此兴奋开放数据共享方法。

三角洲共享目标

三角洲共享设计容易为提供者和使用者使用现有数据和工作流。我们设计了四个目标:

  • 共享实时数据直接拷贝:我们想让它容易分享现有的实时数据。今天,大多数的企业数据存储在云湖和lakehouse系统数据。三角洲分享这些工作;特别是,它可以让您安全地共享任何现有数据集在三角洲湖或Apache拼花格式。
  • 支持广泛的客户:接受者应该能够直接使用数据从他们的工具的选择不安装一个新的平台。bob体育客户端下载三角洲共享协议是容易为工具设计的直接支持。它是基于拼花,大多数工具已经支持,所以很容易实现一个连接器。
  • 强大的安全审计和管理:协议旨在帮助您满足隐私和合规要求。三角洲分享让你格兰特,跟踪和审计访问共享数据的单点执行。
  • 规模巨大的数据集:数据共享越来越需要支持t级的数据集,如细粒度的工业或金融数据,对遗产的挑战的解决方案。三角洲共享利用的成本和弹性云存储系统分享经济和可靠的大规模数据集。

δ分享如何工作?

三角洲安全地共享是一个简单的REST协议,股票进入云数据集的一部分。它利用现代云存储系统,如S3, ADLS或GCS,可靠地传输大型数据集。有两个当事人:数据提供者和接受者。

作为数据提供者,三角洲分享让你分享现有表或部分(例如,特定表的分区版本)的数据存储在云湖三角洲湖格式。三角洲湖表实质上是拼花文件的集合,并且很容易包装如果需要现有的镶花表到三角洲湖。数据提供商决定他们想要什么数据分享和共享服务器运行在它前面,它实现了三角洲为接受者共享协议和管理访问。我们开源bob下载地址参考共享服务器;我们提供托管一砖,如我们想象其他供应商。

数据接收者,所有你需要的是一个许多三角洲共享客户支持协议。我们发布了熊猫开源连接器,Apbob下载地址ache火花,铁锈和Python,我们与合作伙伴合作更多。bob体育外网下载

三角洲安全地共享是一个简单的REST协议,股票进入云数据集的一部分。它利用现代云存储系统,如S3, ADLS或GCS,可靠地传输大型数据集。

实际的交换是精心设计的高效利用云存储系统和三角洲湖的功能。的协议工作如下:

  1. 接收方的客户端验证到共享服务器(通过不记名令牌或其他方法),要求查询特定的表。客户端还可以提供过滤的数据(例如“国家=我们”)作为一个提示阅读数据的一个子集。
  2. 服务器验证客户是否允许访问数据,日志请求,然后确定哪些数据发回。这将是一个子集的数据对象在S3中或其他云存储系统,实际上构成了表。
  3. 传输数据时,服务器产生短暂的pre-signed url,允许客户端读这些拼花文件直接从云提供商,以便转移可以发生在平行巨大的带宽,通过共享服务器没有流。这个强大的功能可以在所有主要的云使它快速、廉价和可靠的分享非常大的数据集。

设计的好处

三角洲共享设计为提供者和消费者提供了很多好处:

  • 数据提供者可以很容易地共享整个表,或只是一个版本或分区的表,因为客户只得到一个对象的特定子集。
  • 数据提供者可以更新数据实时可靠地使用ACID事务在三角洲湖,和接受者总是看到一个一致的观点。
  • 数据接收者不需要在同一个平台的提供者,甚至在云中——跨云共享工作,甚至从云到本地用户。bob体育客户端下载
  • δ为客户共享协议是非常容易实现,如果他们已经理解拼花。我们大部分的原型实现与开源引擎和BI工具只需要1 - 2周。bob下载地址
  • 转移快,便宜,可靠和可平行的使用底层的云系统。

一个开放的生态系统

如前所述,我们兴奋建立一个开放的数据共享方法。数据提供者,如纳斯达克,统一告诉我们,也很难提供多样化的消费者数据,所有这些都使用不同的分析工具。

“我们支持三角洲的愿景共享和开放的协议,它将简化安全数据共享和跨组织的合作。三角洲分享会提高我们的工作方式与我们的合作伙伴,降低运营成本,使更多的用户访问全方位的纳斯达克的数据套件bob体育外网下载发现见解和制定财务战略,”比尔Dague说替代数据,纳斯达克。

三角洲地区与共享,很多流行的系统将能直接连接到共享数据,这样任何用户都可以使用它,为所有参与者减少摩擦。我们正在与许多合作伙伴定义三角洲共享标准,我们邀请你来参加。bob体育外网下载
许多这样的公司扩展支持今天的启动:

BI工具:,Qlik、电力BI,美人
分析:AtScale,Dremio,的亮光谷歌,微软Azure, BigQuery
治理:Collibra,ImmutaAlation,Privacera
数据提供商:FactSet,纳斯达克,精确的,SafegraphAtlassian AWS, Foursquare,冰,Qandl,标普,SequenceBio

δ分享于砖

砖的客户将有一个本地集成三角洲共享的统一目录为共享数据,提供一个流线型的体验内和跨组织。管理员可以管理股票使用新创建共享SQL语法或REST api和审计都集中访问。接受者将能够使用数据从任何平台。bob体育客户端下载报名加入我们的候补名单预览访问和更新。

路线图

第一个版本的三角洲分享只是一个开始。我们开发这个项目,我们计划扩展共享其他对象,如流,SQL视图或任意文件像机器学习模型。我们相信,未来的数据共享是开放的,我们很高兴把这种方法和其他共享工作流。

开始使用三角洲共享

尝试开源三角洲共享发布bob下载地址,按照说明delta.io /共享。或者,如果你是一个砖的客户,报名更新我们的服务。我们很高兴听到您的反馈!

玩这个视频,请点击这里,接受饼干

免费试着砖

相关的帖子

看到所有公告的帖子