虚拟事件+现场问答
作为一个开放格式存储层,三角洲湖提供可靠性、安全性和性能数据湖泊。客户看过48 x更快的数据处理,导致快50%时间洞察力,实施后三角洲湖。
看现场演示和学习如何三角洲湖:
Himanshu拉贾
产品管理
砖
山姆Steiny
产品营销
砖
布兰诺Heintz
产品营销
砖
负责人芭芭拉Eckman
软件架构师
康卡斯特公司
山姆Steiny:你好,欢迎来到砖事件,三角洲湖,你lakehouse的基础。我的名字是山姆Steiny和我在砖产品营销工作,特别关注数据工程和三角洲湖上。我今天很高兴来到这里。我是今天的司仪的事件,和我将指导你通过今天的会议。越来越多,我们看到这个词中引用lakehouse科技博客、新闻事件和思想领导。和在砖超出了我们的工作,组织各行业真的越来越转向lakehouse作为未来的想法统一分析,数据科学和机器学习。bob体育亚洲版
山姆Steiny:在今天的事件中,我们会看到三角洲湖的概述,这是为您的数据安全的数据存储和管理层湖真的lakehouse的基础形式。我们会看到一个演示三角洲湖的行动,我们会听到康卡斯特杠杆三角洲湖将可靠性、性能和安全数据。我们会完成今天的活动现场问和答:所以,要准备好解决你的问题,我们会尽力回答尽可能多。所以,在我们开始之前只是一些快速管家,今天的会议记录。因此,就可以在任何注册的需求。
山姆Steiny:还有,如果你有任何问题在整个事件中,请将它们添加到Q和一盒。我们将尽力回答在实时。但是我们也会回答剩下的问题以及任何额外的现场问答的会话。现在在我们开始我们的演讲者,我想分享一个快速概述三角洲湖的视频中,我们最近推出了。这将给你一个高水平的理解什么是三角洲湖,Himanshu三角洲湖产品经理是谁之前,将进入更详细的关于三角洲湖以及它如何lakehouse的基础形式。
今天演讲3:企业有能力收集比以往更多的数据。数据包含有价值的洞察你的生意和你的顾客,如果你能解开它。大部分组织都有发现,这不是简单的任务将数据转化为洞察力。今天的数据有多种格式,视频、音频和文本。数据湖泊已成为事实上的解决方案,因为他们可以存储不同的格式以较低的成本和企业锁定在一个特定的供应商不喜欢数据仓库。但传统数据湖泊也有挑战,湖泊积累数据在不同的格式,保持可靠的数据是具有挑战性的,并且会导致不准确的查询结果。
发言人3:不断增长的数据量也影响性能,降低分析和决策,以及一些审计和管理特性数据湖泊很难妥善保护和治理。所有的这些挑战,多达73%的公司未使用数据分析和决策和价值没有实现。三角洲湖解决这些挑战。三角洲湖是一个数据存储和管理层数据湖,使您在您的组织规模的见解与真理的一个可靠的单一来源的所有数据工作负载,批处理和流,提高生产力通过优化与性能特性,如高级索引速度规模和模式执行。
发言人3:操作灵活性的一个开源环境存储在Apache拼花格式和降低风险,快速、准确地bob下载地址更新数据在你的数据湖合规通过审计日志记录和维护更好的数据治理。通过与三角洲湖解锁您的数据,您可以极大地简化数据工程通过执行ETL过程直接在数据湖。立即作出新的实时数据可用于数据分析,数据科学和机器学习,获得信心在你能够可靠地满足GDPR和CCPA合规标准。
发言人3:三角洲湖上砖带来的可靠性、性能和安全性数据都在一个开放的格式,使其完美的具有成本效益的高度可伸缩的lakehouse架构的基础。三角洲湖,开放、可靠、高性能的lakehouse和安全的基础。
山姆Steiny:太好了。与高级视图,所以,现在你了解三角洲湖,现在我要把它交给Himanshu拉贾,谁是产品经理在砖三角洲湖。他要做深入探讨了三角洲湖并解释它如何真正使lakehouse为我们的客户。到你,Himanshu。
Himanshu拉:谢谢你,山姆。我超级兴奋来到这里,和你谈谈三角洲湖为lakehouse以及为什么它是正确的基础。在今天的会议中,我将介绍构建数据分析堆栈的挑战而lakehouse是唯一证明未来的解决方案。三角洲湖是什么?和为什么它是最好的基金会lakehouse吗?布伦纳,将进入最精彩的部分会话和做一个演示。会议结束后,你将有足够的上下文,链接到支持材料开始构建第一个数据。
Himanshu拉贾:每家公司都感觉拉成为一个公司的数据,因为当大量数据应用于简单的模型,用例的改进指数。在砖,我们整个重点是帮助客户应用数据的难题。我会挖两个客户的例子,康卡斯特和全国。康卡斯特的媒体公司是一个很好的例子已经成功地采用数据和机器学习为观众创造新的经验,有助于提高满意度和保留。
Himanshu拉贾:他们已经建立了一个语音遥控器,允许你进入远程说话,问一个问题,它会提供一些真正相关的结果,利用自然语言处理和深度学习。他们建造的砖上的平台。bob体育客户端下载全国最大的保险公司之一在美国全国范围内的爆炸性增长数据可用性和增加市场竞争挑战提供更好的价格给客户。与数以百万计的全国保险记录分析下游毫升意识到他们遗留批量分析过程是缓慢和不准确,提供有限的见解来预测请求的频率和严重程度。
Himanshu拉贾:砖,他们已经能够使用深度学习模型扩展到提供更准确的价格预测导致更多的收入从索赔。因为这个潜力,这并不奇怪,83%的ceo认为人工智能是一个战略重点。根据麻省理工学院斯隆管理评论发表的一份报告,或者Gartner预测AI将产生近万亿美元在只有几年的业务价值。但它是非常困难的。Gartner说,85%的大数据项目将会失败。风险击败发表了一份报告,说87%的数据科学项目从未投入生产。因此,尽管有些公司成功取得大多数仍然挣扎。
Himanshu拉:那么,这个故事开始于数据仓库中,很难相信。很快就会迎来40岁生日。数据仓库是在80年代,特地为BI和报告。加班他们已经成为必不可少的,今天地球上每一个企业都有许多人。然而,他们没有建立现代数据用例。他们没有支持数据像视频或音频和文本。现代用例的数据集,是至关重要的。它必须非常结构化数据只可查询的SQL。因此,没有可行的支持数据科学或机器学习。此外,不支持实时流媒体。 They are great for batch processing, but either do not support streaming or can be cost prohibitive.
Himanshu拉:因为他们是封闭的和专有的系统,他们迫使你锁定你的数据,所以你不能轻易移动数据。所以,今天这一切的结果是,大多数组织将首先将他们所有的数据存储在湖泊和块存储的数据,然后转移到数据仓库的子集。然后他们认为潜在的数据湖泊可能是我们所有问题的答案。数据湖泊是在大约10年前,他们的确是伟大的因为他们可以处理所有数据。和他们有好的数据科学和机器学习用例。和数据湖泊作为一个伟大的起点对于很多企业。
Himanshu拉贾:然而,他们不能够支持数据仓库或BI的用例。湖泊的数据实际上是更复杂的比数据仓库的建立。我们的仓库有很多熟悉的支持语义像资产交易。与数据湖泊,你只是处理文件。所以,这些抽象不提供,你真的必须建立他们自己。他们非常复杂的设置。甚至在你所有的,性能不是很好。你只是处理文件,最后。在大多数情况下,客户最终得到大量的小文件,甚至最简单的查询要求你列出所有这些文件。这需要时间。
Himanshu拉贾:最后,当涉及到可靠性,它们也不是那么好。我们有更多的数据在数据湖泊,然后仓库,但数据可靠吗?我能保证模式保持不变?很容易的分析师一起合并不同的模式。由于所有这些问题,数据湖泊的沼泽变成了这些不可靠的数据,所有数据,但它是非常困难的任何意义。可以理解,所以,在没有更好的选择,我们看到的大多数组织共存的策略。
Himanshu拉:那么,这是一个数据沼泽的样子。有很多不同的工具权力架构所需的业务单位或组织。这是一个大量的不同的开源工具,你必须连接。bob下载地址数据仓库栈,在左边,你经常处理专用的数据格式。如果你想启用高级用例,您必须将数据移到其他堆栈。它最终被昂贵和资源集约化管理。结果成什么?由于系统是孤立的,团队也成为孤立的。沟通减慢,阻碍创新和速度。
Himanshu拉贾:不同的团队经常得到不同版本的真相。结果数据的多个副本,没有一致的安全治理模型,封闭系统,断开连接,更少的生产数据团队。那么,我们如何得到两全其美?我们想要一些东西从数据仓库,我们想要一些东西从数据湖泊。我们想要的数据仓库的性能和可靠性,我们希望数据的灵活性和可伸缩性的湖泊。这就是我们称为lakehouse范式。这里的想法是,数据在数据湖,但现在,我们要添加一些组件,以便我们可以做所有的BI和报告从仓库和数据科学和机器学习从湖泊和也支持数据流分析。所以,让我们建立一个lakehouse。有什么事情我们需要建立一个lakehouse吗?
Himanshu拉:我们说,我们真的希望我们所有的数据在一个可伸缩的存储层。我们想要一个统一的平台上,我们可以做多个用例bob体育客户端下载。我们可以实现多个用例。所以,我们需要某种事务层的数据存储层。所以,你真正需要的是类似资产合规,所以当你写数据,它要么完全成功或完全失败,事情是一致的。事务处理层是数据结构。然后我们谈论的其他需求是性能。所以,支持不同类型的用例,我们需要非常快。我们有很多我们想要的数据。有数据引擎,这是一个高性能的砖已经创建的查询引擎为了支持不同类型的用例,不管它是SQL,数据科学、ETL、BI报告,流媒体,所有这些东西的引擎让它真的,非常快。
Himanshu拉:那么,让我们做一个深湖潜水是什么数据。数据湖是一个开放、可靠、高性能、安全的数据存储和管理为您的数据层的湖泊,使您能够创造出一个真正的单一来源的真理。因为它是建立在一个预算,你可以构建高性能的数据管道清洁你的数据从原始注入聚合物业务水平。鉴于开放格式,它可以让你避免不必要的复制和专有的锁定。最终,数据提供了湖,可靠性、性能和安全,你需要解决你的下行数据的用例。接下来,我将讨论这些数据湖的好处。首先受益,得到数据湖是高质量的可靠数据分析堆栈。
Himanshu拉:我来谈谈三个关键东西。第一个是资产交易。第二个是进化模式执行和模式。第三,就是统一的批处理和流。在资产交易中,δ雇佣了一个全有或全无的资产交易的方法来保证你所做的任何操作数据湖上完全成功或被中止,以便它可以重新运行。模式执行三角洲湖上使用模式验证正确,这意味着我们所有的新权利表检查兼容性与目标表模式在正确的时间。如果模式不兼容,三角洲湖完全取消交易,没有数据写入和提出了一个异常,让用户了解不匹配。
Himanshu拉:我们最近推出了功能也做模式演化,可以动态演变模式作为数据进来尤其是在半结构化或非结构化数据的情况。你可能不知道的数据类型是什么,甚至在很多情况下,列进来是什么。第三件事,我想讲的是统一批处理和流。δ是能够处理批处理和流数据,同时包括能力,写批处理和流相同的数据表。三角洲湖直接与火花结构化集成流低延迟更新。
Himanshu拉:这不仅导致一个更简单的系统架构不需要构建一个λ架构了。结果还在更短的时间内从数据摄取到查询结果。三角洲湖的第二个关键优点是性能、闪电、快速的性能。有两个方面来表现数据分析堆栈。一个是数据如何存储,然后另一个是在查询性能,在运行时间。所以,让我们来谈谈他们的数据是如何存储和三角洲如何优化excel的数据存储格式。三角洲附带即用功能存储的数据优化查询。等功能的排序数据自动结构化以及多个维度的快速查询性能就是其中之一。三角洲也有数据跳过,三角洲维护文件数据,这样的数据子集相关查询使用而不是整个表。
Himanshu拉:我们不需要去读所有的文件。基于统计数据文件可以跳过。然后自动最优化,优化是一组功能,自动压缩小文件到更少的大文件,以便查询性能是伟大的。付小暂停期间写来抵消,给表在requering真的大有好处。这就是关于数据存储的一部分。现在,让我们来谈谈三角洲引擎,它就会起作用,当你实际查询数据。数据引擎三个关键组件来提供超快的性能,光子,查询优化器和缓存。光子是一个本机矢量发动机,完全兼容Apache火花,构建加速所有结构化和半结构化的工作负载超过20 x 2.4相比,火花。
Himanshu拉贾:第二个δ引擎是查询优化器的重要组成部分。查询优化器扩展了火花的基于成本的优化器和自适应查询执行先进的统计提供18 X更快的查询性能比火花3.0对于数据仓库工作负载。然后第三三角洲引擎缓存的重要组成部分。δ引擎自动缓存输入输出数据,转码成更多的CPU有效后备利用NBMESSTs提供快5倍性能表扫描比火花3. o。它还包括第二个缓存查询结果立即提供任何后续的结果毫无价值的东西。这提高了重复查询的性能,像仪表盘,底层表不经常改变。
Himanshu拉:那么,让我谈谈第三三角洲湖的主要好处之一,就是在规模提供安全性和遵从性。三角洲湖降低风险,可以快速、准确地更新你的数据中的数据湖,遵守法规更喜欢GDPR和维护数据治理通过审计日志记录。让我谈谈两个特定功能,穿越和稳定的和基于角色的访问控制。穿越三角洲自动版本的大数据存储在你的数据湖和使您能够访问任何数据的历史版本。这个时态数据管理简化你的数据管道便于审计、回滚数据以防意外坏写或删除和繁殖实验和报告。
Himanshu拉:你的组织终于可以标准化清洁集中式版本,在自己的云存储大数据存储库为您分析。第二个功能我想讲的是,表和基于角色的访问控制。湖的数据,您可以通过编程方式grant和revoke访问你的数据基于特定的工作区或角色来确保用户只能访问你想让他们的数据。合作伙伴的Databrick广泛的生态系统。bob体育外网下载客户可以支持各种各样的安全性和治理功能基于他们个人的需要。
Himanshu拉贾:最后,但三角洲湖的一个最重要的好处是,它是开放和敏捷。三角洲湖是一个开放的格式与其他开源技术,避免厂商锁定开放整个社区和生态系统的工具。bob下载地址三角洲湖的所有数据都存储在一个开放的Apache拼花格式,允许数据被任何兼容的读者阅读。开发人员可以使用他们与现有数据管道的三角洲湖用最小的更改,因为它是完全兼容火花。最常用的大数据处理引擎。三角洲湖也支持SQL DML,即用使客户SQL工作负载迁移到三角洲简单和容易。
Himanshu拉:那么,让我们来谈谈我们看到客户如何利用三角洲湖的用例,其中主要是提高数据管道、做大规模ETL,统一批,直接与Apache火花结构化集成流和流媒体运行批处理和流媒体的工作负载在做λ的体系结构中,在您的数据做BI湖三角洲引擎,超级快,准备好性能。你不需要选择一个湖和一个数据仓库的数据。lakehouse我们谈过,你可以直接做BI数据湖,然后用标准满足监管需求GDPR通过保持的记录历史数据变化。和这些用户是谁?
Himanshu拉贾:湖的数据被一些世界上最大的财富100强公司。我们有客户像康卡斯特,Wirecomm,康泰纳仕,McAfee,埃德蒙兹。事实上,砖的所有数据分析使用数据的湖。所以我想只是深度潜水,想讨论星巴克用例只给你一个想法,我们的客户如何使用数据湖的生态系统。星巴克今天需求预测和人性化的经验他们的客户在他们的应用程序。和他们的架构实际上是难以处理pb的数据调整的下游ML和分析,和他们需要一个可伸缩的平台来支持跨组织的多个用例。bob体育客户端下载
Himanshu拉贾:Azure砖和三角洲湖,他们的数据工程师能够构建管道支持批处理和实时工作负载在同一平台。bob体育客户端下载他们使他们的数据科学团队融合不同的数据集,创建新的模型,改善客户体验。最重要的是,数据处理性能已显著改善允许他们在几分钟内部署环境和提供见解。让我总结总结数据湖可以帮你做什么,为什么它是正确的为lakehouse打下基础。与三角洲湖,我们发现可以提高分析和数据科学和机器学习在你的组织通过允许团队合作,确保他们正在可靠的数据来提高他们做决定的速度。
Himanshu拉贾:可以简化数据工程,减少基础设施和维护成本与最好的价格性能,您可以启用一个多重云安全的基础设施平台和数据湖。bob体育客户端下载那么,你如何开始数据湖?其实很简单,如果你有一个砖部署已经在Azure或AWS,现在GCP如果你和DBR集群部署,砖的正确的时间发布版本8.0或更高版本,你实际上不需要做任何事。三角洲现在所有创造性的表和数据的默认格式框架api。但是我们也有足够的资源供您试用产品并学习。
Himanshu拉贾:其实很多有趣的湖和部署您的第一个数据只是建立一个很酷的仪表板使用笔记本。如果你没有尝试过砖才能注册一个免费试用帐户,然后您可以按照我们的入门指南。布伦纳,不久将做一个演示展示我们谈到的功能。所以,交给你,山姆。
山姆Steiny:太棒了。谢谢你,Himanshu。这是伟大的。现在,在过去的阶段到布伦纳Heintz,布兰诺将通过演示,让我们真正为生活带来了三角洲湖。现在,你听说过它是什么以及如何强大的可以,让我们看看它的实际效果。所以,交给你,布伦纳。
布兰诺Heintz:我叫布雷纳Heintz。我是一个技术PMM砖,今天我将向您展示如何三角洲湖为lakehouse架构提供了完美的基础。我们要做一个演示,我将向您展示它是如何工作的从业者的角度来看。在我们这么做之前,我想强调三角洲湖备忘单。我在这工作和我的几个同事,和这里的想法是能够提供一个资源等从业者自己,能够快速、轻松地达到速度与三角洲湖和可以生产非常,非常快。我们提供的大多数,如果不是所有的命令在这个笔记本,它是备忘单的一部分。所以,我强烈建议您下载这个笔记本,你可以直接点击这个图片,它会直接送您到小抄,提供一个寻呼机与Python和一个寻呼机三角洲湖三角洲湖与火花SQL。
布兰诺Heintz:那么,第一为了使用三角洲湖,你需要能够将数据转换成三角洲湖格式。和我们能做,而不是说拼花的一部分创建表或数据帧火花作家命令,所有你要做的就是把这个词三角洲,能够马上开始使用三角洲湖。这是一看,是什么样子。与Python,我们可以用火花阅读铺在我们的数据格式。你也可以读到你的CSV或其他格式的数据。火花非常灵活。然后我们简单地把它写出来格式由指示δ。
布兰诺Heintz:我们要拯救我们的贷款增量表中的数据。我们可以做同样的事情与SQL。我们可以使用create table命令使用然后保存我们的桌子在δ格式。最后,转换为三角洲命令使它很容易将我们的数据转换为三角洲湖格式。所以,现在,我们已经向您展示了如何将您的数据格式等三角洲,让我们看看一个三角洲湖表和看起来像什么。所以,我已经运行单元。我们有14705批记录在我们的贷款增量表。今天,我们正在与一些数据从贷款俱乐部,你可以看到目前我们的部分表的列。
布兰诺Heintz:所以,我继续开始几流表。这里的想法是向你们展示,三角洲湖表能够处理批处理和流媒体数据,并且他们能够整合这些直接开箱即用的没有任何额外的配置或其他需要的东西。您不需要构建一个λ架构,例如,批处理实时数据集成。三角洲湖表可以轻松地管理。正如你所看到的,我们写每秒500条记录,到我们现有的三角洲湖表。我们这样做有两个不同的作家,只是为了告诉你,你可以同时读写从三角洲湖表始终与资产交易,确保你永远不会处理管道破损,导致腐败的状态表,例如。
布兰诺Heintz:三角洲湖的一切事务。这允许我们创建不同读者和作者之间的隔离。很强大,它可以节省我们很多头痛和大量的时间消除错误,我们可能没有acid事务。我承诺,这两个流写耦合。我还创建了两个流读取表中给你们发生了什么在附近。所以,我们在这里这些最初的14705批记录。但是从那以后我们有大约124000流记录已进入我们的桌子。
布兰诺Heintz:这是基本相同的图表,但是显示你在每个10-second-window发生了什么,每一个酒吧代表一个10-second-window,正如你所看到的,因为我们的流开始,我们有大约5000条记录每流写入我们的表在任何时间。所以,所有这一切只是说三角洲湖是一个非常强大的工具,使您可以轻松地集成批处理和连续流数据的。这是非常容易使用,你可以马上开始。把樱桃上,我们添加了一个批处理查询可能有效的措施,我们策划使用砖内置的可视化工具,这是非常容易和允许您可视化的东西很快。
布兰诺Heintz:所以,现在,我们给你们是多么容易批处理和集成与三角洲湖流数据,让我们来谈谈数据质量。你需要工具执行模式和模式演化为了执行表的质量。原因是你不希望上游数据源,添加额外的列,删除列,或者改变你的模式没有你不知道的。因为这可能会导致下游管道破损,然后影响你所有的数据表。所以,为了避免这种情况,我们可以使用模式首先执行。所以我创建了这个新数据,数据帧包含一个新列,信用评分栏,我们当前表中不存在。
布兰诺Heintz:所以,因为三角洲湖提供模式执行我们运行这个命令的时候,我们得到了一个例外,因为模式不匹配被三角洲湖。这是一件好事。我们不想让我们的数据成功地写信给我们的三角洲湖表因为它不匹配我们的期望。然而,只要我们知道我们想故意迁移模式,我们可以通过添加一个命令我们写命令,我们包括合并模式选择。现在,这些额外的列是成功写入我们的桌子,我们也能够发展我们的模式。现在,当我们试着选择的记录在我们的表,在我们的新的数据表中,你可以看到这些记录实际上是成功写入新信用评分的表和列现在出现在我们的表的模式。
布兰诺Heintz:那么,这些工具给你,他们非常强大,它们允许您执行数据质量的方法,你需要为了你的数据从原始非结构化数据过渡到高质量的结构化数据,这是准备加班下游应用程序和用户。所以,现在,我们已经讨论过进化模式执行和计划,我想继续三角洲湖时间旅行。时间旅行三角洲湖是一个非常强大的特性。在三角洲湖,因为一切事务,我们跟踪所有的事务中随着时间的推移我们的三角洲湖表事务日志,可以让我们回到过去,重建我们的三角洲湖表的状态在任何时候。
布兰诺Heintz:首先,让我们看看这是什么样子的。所以,在任何时候,我们可以通过运行该访问事务日志描述历史命令。,正如你所看到的,每一个版本的表代表某种交易,某种形式的改变是我们的表。所以,我们最近的变化是我们颠覆了这些品牌新记录新三角洲湖表列。所以,你可以看到这里的事务,在这之前我们有一些流媒体更新。所有的这些权利发生我们的表被添加事务。基本上这允许您然后回去使用版本号或时间戳,然后查询历史版本的三角洲湖表在任何时候。很强大,因为你甚至可以做创造性的事情像比较当前版本的表来看看前一版本改变了之后,和做其他的事情。
布兰诺Heintz:那么,让我们继续这样做。让我们看,我们将使用时间旅行要查看表的原始版本,版本0。这应该包括那些我们开始的14705条记录,因为此时版本0的表,我们没有流任何新记录到我们的桌子。最初的版本,正如你所看到的那些14705条记录是唯一版本记录存在的零。和没有信用评分列,因为当然,在版本0,我们尚未进化三角洲湖表模式。
布兰诺Heintz:所以,对比14705条记录当前表的记录数,这是超过326000。最后,你能做的另一件事与三角洲湖穿越恢复前一个版本的表在任何给定的时间点上。这是很强大的,如果你不小心删除一列你不是故意,或删除一些记录你不是故意的,你可以回去,然后使用恢复命令的当前版本表完全恢复你的数据的方式是在给定的时间戳或版本号。所以,正如你所看到的,当我们运行这个命令恢复原状版本表的零,我们能够成功地这样做。现在,当我们查询它,我们只得到14705条记录作为表的一部分。
Brenner Heintz:接下来,的一个功能,我认为开发人员,工程师和其他数据从业者是寻找当他们正在构建lakehouse是运行简单的DML命令的能力只有一两行代码,可以做的操作,比如删除、更新、合并,插入等等。在传统数据湖,那些根本不可能的。三角洲湖,您可以运行这些命令,他们只是以事务的方式工作,他们这样做。他们非常非常简单。所以,管理变更数据变得更加容易当你这些简单的命令处理。
布兰诺Heintz:那么,让我们来看看,我们选择4420用户ID作为测试用例,我们将使用专门的修改他们的数据展示三角洲湖能做什么。正如你所看到的,他们目前在我们的表,但是如果我们运行这个命令删除指定特定用户,当我们运行该命令,然后我们从表中,选择所有我们现在没有结果。成功删除了。接下来,当我们看描述历史命令,事务日志,所以你可以看到删除,我们目前只是进行表。你也可以看到我们做的恢复跳回到原来的版本的表零也存在。我们也可以做表插入记录直接回我们如果我们想要这样做。
布兰诺Heintz:在这里,我们要用穿越看版本0,我们表的原始版本之前,该用户被删除,然后重新插入该用户的数据。所以,现在当我们运行选择所有命令,用户再次出现在我们的桌子。插入命令伟大的工作。接下来,有更新的命令。更新是非常有用的,如果你有行级的变化需要。在这里,我们要改变这个用户资助金额22000。真正让它25000年,看起来已经22000年了。
布兰诺Heintz:那么,我们将更新这个数字,然后当我们查询我们的桌子,现在,事实上,已经成功更新用户的资助金额。最后,在三角洲湖你真的有能力,真正强大的合并。你可以有一个表充满变化的数据,例如代表三角洲湖表插入和更新。三角洲湖,你可以插入。在一个单一的步骤你可以…每一行的数据帧,你想写你的三角洲湖表,如果这一行已经出现在你的表,您可以简单地更新这一行的值。而如果这一行不存在在你的表,你可以插入它。
布兰诺Heintz:那么,这就是所谓的一个插入,是完全可能的,他们非常非常容易在三角洲湖。管理你的三角洲湖非常,非常简单。首先我们创建一个快速数据帧只有两个记录,我们想要回我们的表添加用户4420的数据。然后我们还创建了一个用户的用户ID,而下一个100万年。所以,这是999999。和这个用户当前没有出现在我们的桌子。我们想要插入它们。这是我们的小数据帧是什么样子。你可以看到,我们有这些更新或插入。当我们运行我们的合并命令,三角洲湖是能够识别行已经存在,如用户4420,和那些不已经存在。 And when they don't exist, we simply insert them.
布兰诺Heintz:那么,如你所见,这些更新,插入成功发生和三角洲湖upsert没有问题。最后,我想指出的最后一件事是一些特定的性能改进提供了三角洲湖的一部分。而且作为砖的一部分,三角洲湖。我们有几个命令,是砖,此刻只三角洲湖。首先是真空的命令。真空命令需要看看目前的文件表的一部分,删除任何文件,不是目前的一部分表已经存在了一个指定的保存期。所以,这允许您清理旧版本的表比特定的保存期,云的节省成本。
布兰诺Heintz:砖三角洲湖上你可以做的另一件事是你可以在内存中缓存特定命令的结果。所以,如果你有一个特定的表,下游分析师往往总是集团通过特定的维度,您可以缓存SQL命令,和它看起来总是比它更快,这样能够避免做一个完整的读取的数据,例如。你也有能力使用Z顺序优化的命令,这是强大的。Z顺序优化本质上看着你的数据表的布局,它找出最完美的方式来定位你的数据在不同的文件中。它列出了你的文件在一个优化的方式,这可以让你节省云存储成本,因为它出来的方式通常是比将当你开始更加紧凑。然后它还优化那些表读写吞吐量。
布兰诺Heintz:那么,这是非常强大的。它加速查询的结果,最终将节省您的存储和计算成本。这就是演示。我希望你喜欢这个演示。再一次,看看湖三角洲备忘单,我们将职务描述或在聊天的一部分,是下面的演示的一部分。所以,非常感谢。我希望你喜欢这个演示。在GitHub上查看三角洲湖,加入我们,松弛,或者我们邮件列表的一部分。非常感谢。
山姆Steiny:太棒了。谢谢你,布伦纳。这是真的,真的很好。我很兴奋现在由负责人芭芭拉Eckman加入。芭芭拉是一个高级康卡斯特公司首席软件架构师,她会分享她的经验与三角洲湖和使用砖确实是如何影响她的日常业务和康卡斯特。所以,非常感谢在这里,芭芭拉。我们超级兴奋。
负责人芭芭拉Eckman:嗨,大家好。很高兴来到这里。希望你们都做得很好。我在这里谈论混合云自助计算机环境中的访问控制在康卡斯特。我想真正的简要提到Comcast需要非常认真的承诺我们的客户来保护他们的数据。我康卡斯特的一部分,我们称之为数据经验大数据组。和大数据在这种情况下不仅意味着公共云,而且on-prem数据。所以,我们有一个异构数据集,它提供了一些挑战,挑战是有趣,对吗?我们的愿景是,数据被视为企业的资产。这不是一个新概念,但这是一个很重要的一个。
负责人芭芭拉Eckman:我们的使命是权力Comcast企业通过自助服务平台,数据发现血统,管理治理、工程服务,所有这些重要的事情,使人们真正使用数据的重要方式。bob体育客户端下载我们知道许多强大的商业见解,最强大的见解来自模型的数据集成,跨筒仓。见解对改善客户体验和业务价值。所以,这意味着业务有一些例子。基本上,这是基于大量的遥测数据,我们从传感器和康卡斯特的网络捕获。我们捕获延迟,交通,信号噪声比,下游和上游、错误率和其他东西,我甚至不知道他们的意思。
负责人芭芭拉Eckman:但这使我们能够做一些改善客户体验计划网络拓扑来帮助如果有地区大量的流量,我们可能会改变政策支持。最小化的卡车,卡车卷是我们所说的那个康卡斯特拉索或电缆时女性来到你的房子。在这COVID时期,我们真的想最小化,甚至更多。如果我们能提前分析数据,我们也许可以做出任何调整或建议调整,用户可以最小化需要人来他们的房子。
负责人芭芭拉Eckman:我们可以监控、预测问题和补救措施经常在用户知道之前因为这个数据,这包括遥测数据和跨企业集成与其他类型的数据。然后优化网络性能为地区或整个家庭。所以,这是非常重要的东西,它真的帮助客户。我们努力使这个更普遍。那么,是什么使你的生活困难吗?这是一个专业的声明。如果你想谈论个人,什么使你的生活困难?以后我们可以做,但什么使你的生活困难作为数据专业吗?
负责人芭芭拉Eckman:人们通常说,“我需要找到数据。所以如果我要整合数据仓库,我需要找到它。我知道它在筒仓,但也许。”And the way we do that is a metadata search and discovery, which we do through Elasticsearch. Then once I find the data that might be of interest to me, I need to understand what it means. So, what someone calls an account ID might not be the same account ID that you are used to calling an account ID, billing IDs, or back office account IDs need to know what it means in order to be able to join it, to make sense as opposed to Franklin data, monster data that isn't really appropriately joined. We need to know who produced it, that it come from a set-top box. Did it come from a third party who touched it while it was journeying through Comcast, through Tenet, through Kafka or Kinesis and someone aggregated it and then maybe somebody else enriched it with other data.
负责人芭芭拉Eckman:然后它降落在一个数据。用户数据的数据湖想知道数据从何而来,和谁说。你可以认为这是出版商的数据在数据湖,说,“这看起来古怪的,这有什么错?谁打乱了我的数据?”He could also say, or they could say, "Wow, this is enriched really great. I want to thank that person." And also someone who's just using the data wants to know who to ask questions. What did you enrich this with? Where did that data come from, that kind of thing? So, and all that really is helpful when you're doing this integration. That's data governance and lineage, which we do in Apache Atlas.
负责人芭芭拉Eckman:这是我们的元数据和血统库。一旦你发现数据和理解它,你必须能够访问它。我们通过Apache管理员及其扩展Privacera所提供的。一旦你拥有它,你需要能够跨企业的整合和分析它。所以,最后,现在我们得到好东西能够得到数据。我们可以用自助计算使用砖。和砖是一个非常强大的工具。最后我们发现我们真的需要资产为重要操作合规。我们可以用δ湖。所以,我可以更详细地讨论这个,上面或者在提问环节。
负责人芭芭拉Eckman:我是一个建筑师。所以,我必须有公共汽车和线路图。这是一个混合云解决方案的高级视图。收入通过我们的数据中心,我们有一个湖,Hadoop Hadoop数据管理员和Apache阿特拉斯一起工作。我们很多公司的定相,但不是马上,它需要一段时间。我们有一个地球数据,企业数据仓库。同样,我们认为此举和不一定完全云,但也许另一个on-prem来源,如对象存储。我们使用MinIO基本上给出了混合这个这样子S3对象。所以,当火花的工作,我们喜欢用S3上也可以运行在我们之前的数据存储。
负责人芭芭拉Eckman:当然这是一个大优点。为此,我们有一个管理员数据服务,帮助与访问控制。在云计算中,我们使用AWS虽然Azure在康卡斯特也有一个很大的足迹。这里的中心和砖计算。我们用它来访问动作。红移,我们刚刚开始。我们使用三角洲湖和S3对象存储和我们有一个管理员插件的砖人工作认真Privacera创建,以便我们的自助砖环境所有nit脚本和配置,它需要运行Privacera提供的访问控制。
负责人芭芭拉Eckman:我们也使用很快和我们联合查询功能,它也有一个管理员插件和所有的元数据标记应用于政策,或者被安置在Apache阿特拉斯和测距仪和阿特拉斯一起同步。这就是管理员知道政策适用于哪些数据。在提问环节,如果你想深入挖掘这些,我会很高兴去做。这对我来说是非常令人兴奋的,我们只是滚出来和它是如此优雅,我没有所以我可以说创建它。因此,管理员分析一起提供一个声明基于策略的访问控制。正如我所说,Privacera延伸骑警,最初只在Hadoop AWS插件和代理。和我们使用的一个关键的,当然,砖在所有这三个环境。基本上我喜欢这是我们真的有一个管理员来控制一切,阿特拉斯是他的好友,因为他或她提供,提供了标签,真的力量我们的访问控制。
负责人芭芭拉Eckman:这是又一个图。我们有一个门户,我们为自我服务构建应用程序和用户标签,元数据标记,PII这样,这是一个视频领域,这些东西。进入阿特拉斯、标记和元数据关联与测距仪同步,政策的基础上。所以,谁CPI ?谁可以看到视频领域数据吗?同步和兑现的插件。当用户调用应用程序时,无论它是一个云应用程序在砖,甚至一个on-prem应用程序,该应用程序问管理员,“这个用户是否有访问做他们要求在这些数据做什么?”If the answer is yes, and it's very fast, because these are plugins. If the answer is yes, they get access.
负责人芭芭拉Eckman:如果没有,接着他们得到一个错误信息,我们也可以做掩蔽和显示数据,如果有人访问许多列,但并不是所有的列,我想说一个胶表我们可以掩盖那些他们无法访问,仍给他们什么他们可以看到数据。最近我们真的需要酸合规。传统的大数据湖泊是编写一次,读过很多。我们有东西流在有线电视机顶盒的世界,那些没有事务,这不是事务数据。这就是我们,但现在我们越来越多地发现,我们需要从我们的拼花文件删除特定的记录等等。在火花我们可以这样做,但这是一个可怕的性能。当然这是可以做到的,但事实证明三角洲湖它更好。
负责人芭芭拉Eckman:删除更多的性能,你可以查看过去的快照数据湖,这是非常可怕的。所以我们真的走向,我爱这个词,一个lakehouse能够做,编写一次,读过很多和酸都在一个地方。这在很大程度上是由于数据湖泊。所以,这就是我。请联系我的电子邮件,如果你的愿望。我很乐意回答问题如果你有任何生活会话。所以,非常感谢你们的聆听。
山姆Steiny:谢谢你加入这个事件,芭芭拉。那太好了。很高兴听到康卡斯特的故事。所以,让我们一些问题。我们要搬到现场问答。所以,请添加你的问题,问答。