数据摄取

轻松加载您的数据到三角洲湖


免费尝试观看演示

使用Databricks,您可以从数百个数据源增量和有效地摄取数据到您的Delta Lake,以确保您的数据lakehouse始终包含最完整和最新的数据,可用于数据科学,机器学习和业务分析。

背景图像

数据摄取,简化

自动加载程序

使用自动加载器摄取任何文件,可以登陆数据湖到Delta湖。指向云存储服务上的目录,如Amazon S3, Azure数据湖存储或谷歌计算存储,自动加载器将增量处理新文件与精确的一次语义。

跟踪和监控

让Auto Loader跟踪哪些文件已被处理,发现延迟到达的数据,推断您的数据模式,随着时间的推移监控模式的变化,并挽救数据的数据质量问题。Auto Loader可以在几秒钟内连续摄取数据,也可以计划以您预期的数据到达速率运行-无论是一小时一次,一天一次还是一个月一次。

复制到

SQL命令COPY INTO允许您将批处理文件导入Delta Lake。COPY INTO是一个只使用一次语义摄取文件的命令,当输入目录包含数千个或更少的文件,而用户更喜欢使用SQL时,最好使用该命令。COPY INTO可以在您方便的时候通过JDBC将数据推入Delta Lake。

Delta数据摄取

高效的数据处理

使用Databricks,您可以从流行的消息队列中提取数据,例如Apache卡夫卡, Azure事件集线器或AWS Kinesis以较低的延迟。通过将这些源的数据输入Delta Lake,您不必担心由于保留策略而丢失这些服务中的数据。随着业务需求的发展,您可以更便宜、更有效地重新处理数据,并且可以对数据保持更长的历史视图,从而为机器学习和业务分析应用程序提供动力。

统一来自其他企业应用程序的数据

利用Azure data Factory、Fivetran、Qlik、Infoworbob体育外网下载ks、StreamSets和Syncsort等合作伙伴的庞大数据摄取网络,从易于使用的连接器库中轻松地将来自应用程序、数据存储、大型机、文件等的数据摄取到Delta Lake中。利用合作伙伴的生态系统,充分发挥结合大数据和云应bob体育外网下载用程序、数据库、大型机和文件系统的数据的潜力。

背景图像

合作伙伴网络bob体育外网下载

从Delta Lake的应用程序数据库中获取变更数据

您的业务依赖于应用程序数据库。在数据分析用例中直接使用它们可能会由于数据库负载过大而导致业务应用程序中断。通过将这些数据集复制到您的lakehouse,您可以确保您的业务应用程序在利用分析用例中的有价值信息时可以正常运行。您可以通过利用Azure数据工厂、AWS DMS和Auto Loader等服务或Fivetran等合作伙伴从这些数据存储中获取数据。bob体育外网下载

客户

壳牌
壳牌客户故事

客户的故事

壳牌创新能源解决方案,创造更清洁的世界

Databricks Lakehouse在全球范围内帮助实现数据民主化和运营现代化。

Gumgum
Finra客户故事

客户的故事

GumGum每天处理超过35B个事件进行分析

相关内容

网络研讨会

电子书

电子书