跳转到主要内容
公司博客上

砖三角洲:一个统一的数据管理系统实时大数据

分享这篇文章

结合最好的数据仓库,湖泊和流媒体数据

为深入了解和演示,参加网络研讨会

今天我们要介绍一种砖三角洲,一个统一的数据管理系统来简化大规模数据管理。目前,组织建立大数据架构使用的混合系统,包括数据仓库、数据的湖泊和流媒体系统。这大大增加成本,必然地,操作复杂性系统连接和维护变得困难。

砖三角洲是一个数据管理工具,它结合了湖的规模数据,数据仓库的可靠性和性能,低延迟的流媒体首次在一个单一的系统。其余的在一起砖统一分析平台bob体育亚洲版bob体育客户端下载δ可以大大轻松地构建、管理,把大数据应用程序投入生产。

当前数据架构的问题

我们深入δ之前,让我们来讨论当前大数据架构难以构建、管理和维护。大多数现代数据架构的混合使用至少三种不同类型的系统:流媒体系统,数据湖泊和数据仓库。

业务数据到达通过流媒体系统,如亚马逊运动或Apache卡夫卡,主要专注于快速交付。数据长期存储在数据湖泊,例如Apache Hadoop或Amazon S3,优化了大规模、超低价存储。不幸的是,数据湖泊本身没有支持高端业务应用程序所需的性能和特点:因此,最有价值的数据上传至数据仓库,为高性能优化、并发性和可靠性数据存储成本远高于湖泊。

这个传统架构创建所有企业斗争的几个挑战。首先,提取-转换-装载(ETL)这些存储系统之间是容易出错且复杂的过程。数据团队花了大部分的时间建造ETL作业。如果这些工作一天错过一些输入数据或包含错误的上传数据,所有下游应用程序受到影响。第二,ETL过程增加了相当大的延迟,这意味着它可以从记录到的时候花费几个小时的时间,当它出现在一个数据仓库。

在Edmunds.com上执行董事格雷格Rokita技术,描述了这个问题:“在埃德蒙兹,获得实时的客户和收入的见解对我们的业务至关重要。但是我们一直挑战与复杂的ETL处理减慢我们的访问数据。”

在砖,我们看到这些问题在各种规模的组织自从我们开始。基于这些经验,我们一直在寻找方法从根本上简化数据管理。简而言之,如果我们可以提供每个类型的系统的主要好处——拼湖泊、数据仓库和流————一个统一的平台bob体育客户端下载,没有昂贵的和容易出错的ETL呢?这正是我们三角洲建成的。

砖三角洲:统一的数据管理

δ是一种新型的统一数据管理系统,它结合了最好的数据仓库,数据湖泊、和流。三角洲运行在Amazon S3和Apache拼花等开放格式存储数据。然而,三角洲增强S3与几个扩展,允许它达到三个目标:

  1. 数据仓库的可靠性和性能:δ支持事务插入,删除,插入,查询;这使得可靠的并发访问的应用程序。此外,三角洲自动索引、压缩和缓存数据;这达到100 x改进的性能/ Apache火花在拼花或运行Apache蜂巢在S3。
  2. 流媒体系统的速度:三角洲事务性包含新数据在几秒钟内,使这些数据立即对高性能查询使用流或批处理。
  3. 湖的规模和成本效率的数据:三角洲在云blob存储像S3存储数据。从这些系统继承了低成本、大规模可扩展性,支持并发访问,和高读写吞吐量。

与三角洲,组织不再需要存储系统性能之间做出权衡,或者花他们的资源移动数据系统。数以百计的应用程序现在可以可靠地上传、查询和更新数据在大规模和低成本。

从技术的角度来看,δ达到这些目标通过实现两个基本扩展/ S3:

  • 酸事务和
  • 自动数据索引(结合δ事务)。

这些扩展让δ执行各种各样的优化,同时仍然提供可靠的数据访问应用程序,代表用户。三角洲插入任何火花工作作为数据源,数据存储在每个用户的个人S3帐户,并集成了砖企业安全提供一个完整的数据管理平台。bob体育客户端下载

请继续关注更详细的技术讨论的三角洲未来的博客文章。

一个示例用例:实时的信息安全

阿里Ghodsi, CEO砖,在他的发言中提到引发欧洲峰会δ已经在使用我们的一些大客户。让我们走过的用例砖财富100强客户已经处理数万亿记录每天的生产与δ。这里是他们的需求:

  • 大量摄取低延迟体积:三角洲表需要能够摄取每天数以万亿计的记录与第二分钟的延迟。
  • 数据正确性和事务更新:数据必须是正确的和一致的。写部分和失败不应该出现在终端用户查询。
  • 快速、灵活的当前和历史数据查询:分析人员需要分析与通用语言,像Python pb的数据;除了SQL。

花了一个二十人的团队工程师超过6个月的时间来建立他们的遗产体系结构,包括各种数据湖泊、数据仓库和ETL工具来满足这些需求。即便如此,团队只能两周的数据存储在数据仓库中由于成本,限制其向后看在时间的能力。此外,数据仓库选择无法运行机器学习。

使用三角洲,这家公司能够把Delta-based架构投入生产在短短两周的五个工程师团队。

他们的新架构很简单和性能。端到端延时低(秒到几分钟)和团队看到100 x查询速度的改进/开源Apache火花拼花。bob下载地址此外,用δ,团队现在可以运行交互式查询所有的历史数据价值——不仅仅是两周,而获得的能力利用Apache引发机器学习和先进的分析方法。

开始使用δ

三角洲目前在技术预览版阶段与多个砖的客户。这意味着目前在生产中运行,但我们仍然熨烫一些细节与热情的顾客特别具有挑战性的用例。三角洲通常不会直到明年年初但如果你有兴趣参与技术预览版,请注册在三角洲产品页面,我们将联系!

结论

而大数据应用程序已经成为所有企业的关键,他们仍然过于复杂的构建和缓慢。湖泊和新车型等数据λ架构不断被提出,以简化数据管理。与砖三角洲,我们认为我们终于做出了一个重大飞跃向这一目标。而不是添加新存储系统和数据管理的步骤,三角洲让组织删除复杂性通过多个存储系统的好处。通过结合现有系统的最佳属性可伸缩的、低成本的云存储,我们相信三角洲将使极大地简化数据架构,让组织专注于从数据中提取价值。

对开源三角洲湖感兴趣吗?bob下载地址
访问在线三角洲湖中心要了解BOB低频彩更多,请下载最新的代码,并加入三角洲湖社区。

免费试着砖
看到所有公司博客上的帖子