借助Delta Lake, Columbia从传统数据仓库迁移到开放数据平台bob体育客户端下载

下载幻灯片

哥伦比亚大学是一家数据驱动型企业,整合来自所有业务线系统的数据来管理其批发和零售业务。这包括集成实时和批量数据,以更好地管理采购订单并生成准确的消费者需求预测。它还包括分析产品评论,以提高客户满意度。在本演示中,我们将介绍如何使用Azure Databricks将管道创建时间减少70%,并将ETL工作负载时间从以前的数据仓库的4小时减少到几分钟,从而实现近乎实时的分析。我们从多个由单个业务线运行的遗留数据仓库迁移到Azure和Delta lake之上的单一可扩展、可靠、性能良好的数据湖。

点击这里观看更多Spark + AI课程

免费试用Databricks

视频记录

-嗨,我叫Lara Minor,我在Columbia Sportswear公司工作。今天,我将向大家介绍哥伦比亚如何将其传统报告和分析平台转移到Azure,包括使用Databricks和Delta Lake。bob体育客户端下载EIM是企业信息管理,是我在哥伦比亚运动服饰公司工作的部门。哥伦比亚在全球范围内销售多个品牌,包括生活方式、外套和鞋类。EIM收集来自这些多个品牌和地区的数据,并构建数据资产,允许企业在销售、采购、供应链和产品优化等方面做出数据驱动的决策。我在EIM的数据传递部门工作。还有一个数据治理团队,我在后面会稍微讲一下。在数据交付中,我们负责构建这些数据资产。我们今天的技术堆栈包括数据工厂、数据湖、数据库和Synapse数据仓库。我们还有SAP BW/Hanar,我们在SAP平台上创建了很多运营报告。bob体育客户端下载

在我们的发展中,我们在哥伦比亚大学做了一些集成,我们有一个集成团队。但在数据交付方面,我们与第三方或哥伦比亚内部进行了更多面向批量、高容量的数据集成。然后我们得到的大部分工作是通过构建我们的数据资产。因此,我们建立了支持该报告的关系和维度模型。我们也刚刚成立了一个数据科学团队。我们还支持数据分析团队,他们现在正在这个平台上工作。bob体育客户端下载我们从非常传统的BI类型平台开始,在那里我们有专门的ETL工具,我们用来从整个公司收集bob体育客户端下载数据,并将其放入我们的数据仓库。然后我们有了一个特殊的报告工具,需要一套技能才能在那里发展。这样做的问题是收集数据非常缓慢,建立资产也非常缓慢。然后它需要跨平台的特殊技能。bob体育客户端下载 And we could not keep up with the business needs, we kept running into just they want more than we could do. And about the time that we switched to the Azure platform, a couple of things kind of came together at Columbia. One, for enterprise architecture, we decided to go with the cloud, we wanted to push for more cloud. We have an integration team that was switching from point to point integrations to event architecture. And at the same time, our Hanar database was kind of getting more and more data, and it competing with our data warehouse, we wanted to figure out one platform. With this data warehouse that we had, we were going to have a very pricey, multi million hardware upgrade that was due. And so we were looking for something that was scalable and elastic and a lower cost, would support a self serve reporting model. We did some studies and we settled on Azure.

所以我们现在要做的就是这个架构,我们使用数据工厂从公司各个品牌和地区引入数据。我们把水和流进湖中,我们把水立刻流进三角洲湖。一旦它进入Delta Lake,我们就可以把所有这些来源放在我们的维度中,我们的关系和维度模型来支持业务。我们在湖上用数据库进行计算。

一旦我们弄清楚了所有这些,我们就把更改后的数据集推到数据仓库中。因此,我们的数据仓库是我们在数据湖中创建的资产的副本。我们不把所有的原始数据都放在湖中,只把业务报告所需的资产放在湖中。

我们使用Azure分析服务,它连接到您的Synapse和Power BI。我们为企业提供便利,在我们所经历的项目中进行自助报告。

所以技术是一方面,当你在做一个大项目的时候,至少对我们来说,我们发现有很多技术之外的东西我们需要考虑。这确实成为整个公司的主要问题。所以之前,我们的BI平台是非常自我的,它是包bob体育客户端下载含的。没有其他人进来,没有太多的数据被访问。所以安全问题以及谁会登上站台并没有被讨论太多。bob体育客户端下载但一旦我们向Azure平台开放,所有数据都在数据湖上,整个企业都可以访问,业bob体育客户端下载务能够自助服务,引发了很多关于数据安全的对话,关于谁拥有数据,谁可以对数据做出决策。这就是我们的数据治理团队真正发挥作用的地方。因此,我们的数据治理团队已经确定了数据所有者和数据管理员,他们可以对数据的安全分类做出决定。在我的小组中,我们主要处理两种安全分类。一个是内部的,这意味着它对所有哥伦比亚的报道社区开放,另一个是受限制的。 So an example of restricted data is consumer, right, ’cause of GDPR in California.

所以其他的数据也会受到限制。然后我们发现,不仅原始数据受到限制,那些数据资产也会受到限制。因此,虽然销售、产品和供应链数据来自原始来源,但可能被归类为内部数据。当我们创建了一个数据资产,它在所有地区和品牌都有销售,包括预测、毛利率和成本,突然之间,这个资产就受到了限制。他们想控制谁能接触到这些信息。所以我们花了很多时间来了解高管们,尤其是他们为什么想要限制数据,我们希望尽可能地保持开放。但也有人担心滥用。所以他们想要跟踪这些数据。所以我们确定,我们所做的是确定可能访问我们平台的不同人员的资料,例如,数据分析师,这可能是一个业务分析团队,或者是一个支持业务部门的分析团队。bob体育客户端下载它可以包括数据科学家,我们在哥伦比亚大学没有很多这样的人,这是一个小团队。 And they basically have access to all internal and restricted data, we don’t try to lock them down. We have info consumers, in this is a group that we work with all the time at Columbia, because they’re the ones that help us decide how to build those data assets, what they wanna see in there, what metrics, what KPIs, how things should be calculated, how that is the raw data should be transformed. And they also have access directly to the data warehouse because you can’t do everything in an AAS and in a Power BI Report. Those folks need to get in and do some heavy lifting, and they do that directly on the data warehouse. And then the biggest group that we have, and this is where most of the conversation happens is for the info consumer, which is all of Columbia’s reporting community and how they get access to the platform. And how we supply access to the platform in Databricks and data lake, and the data warehouse, is much different to how it’s done in Azure Analytic Services. So our goal was to make it so that when we get to that analysis services and Power BI in place, the access to the data is controlled by the business. It’s determined by the data stewards and the data owners and they also get to figure out how to set that, how to, who gets added. And we do have methods of them, for them to do that.

所以我们的数据湖布局不安全,需要真正理解业务想要做什么,限制数据,以便正确设置。我们绝对不想要一个数据沼泽,我们在安全模型中的数据湖布局上花了很多时间。所以在我们所有的平台上,没有一个人可以访问它,它都是由安全组控制的。bob体育客户端下载因此,这些受限域和内部域都有与之关联的安全组。你可以添加其他安全组让人们可以随意访问。我们基本上在数据湖的高层有这三个容器,我们有我们的原始数据源,这是我们从公司所有品牌和地区带来的所有原始数据源数据。然后我们策划在哪里创建这些数据资产。原始数据输入后,我们组织我的源系统,因为我的团队,当我们从一个源系统输入数据时,这就是我们处理数据的方式,我们不把它看成是产品,这是销售,它可以是来自一个源系统的所有不同类型的数据。这就是这里的组织方式。

这是一个内部受限的领域。当我们开始时,我们有我们的访问层,或我们的安全层,大约五层深。但这并没有起作用。我们必须提出来,因为要控制一个人是否能访问五层的深度是非常复杂的。所以我们在第二个层面上做。一旦你有权限进入内部或限制,你就走上了你的道路,你可以进入它下面的一切。然后我们使用Databricks来移动,创建这些资产,我们将它们移动到这个策划区域。这里是由数据域完成的。数据域由我们的数据治理团队确定。数据域被分配给数据所有者或数据管理员。 Most of our assets cross multiple data domains, for example, in that report I said that we have sales across the company, also includes product and supply chain data. But we do have that in sales. And then the multiple data owners can participate in access requests for that. So we organize it by the domain, which is a schema and a table name. So it might have product, data sales, data, those are the different types of domains that we have. And again with restricted so our consumer domain, some of our forecasting is in restricted, which means it has limited access.

然后我们还有计算文件夹。这是为了当我们没有的时候,我们有几个分析团队,他们自己在Databricks中运行。他们可以读取原始数据和管理数据集中的所有数据,他们可以创建自己的资产,并将它们写到只有他们可以访问的自己的目录中。

现在我要把话题转到Bilal,谁来谈谈这个平台?bob体育客户端下载-大家好。我的名字是Bilal Obeidat,我是一个长期的数据极客,拥有超过15年的经验。我在Databricks担任解决方案架构师已经三年多了。作为我们战略客户团队的一员,我开始与我们的企业合作,像哥伦比亚这样的客户,并使用Databricks来解决数据和人工智能问题。我想花几分钟谈谈统一数据分析平台。bob体育客户端下载这是一种常见的体系结构范例,被我们的许多(实际上是大部分)Databricks客户所采用。正如你们在劳拉展示的最后几张幻灯片中看到的。

Columbia体系结构是统一分析体系结构的定制版本。bob体育亚洲版总的来说,这种架构和三角洲湖是普遍而广泛采用的。

统一数据分析平台bob体育客户端下载

在这个架构中,我们有实时数据和批量数据。

实时数据是通过Kafka或Event Hub或任何其他流技术传输的,批处理数据通常你写管道,到ETL这个数据到Delta Lake。这就是实时数据和批量数据结合在一起的地方,并以一行数据格式降落到三角洲湖。它可以被清洗,聚合成银数据,也可以被丰富成策展数据,从那里它可以上传到数据仓库技术,如果我们有一个低延迟和高并发要求报告这些数据。

就像一个关于Delta的快速想法,Databricks是一个计算引擎。它并不是一个真正的存储引擎,所以你可以利用云存储来实现这个目的。

Delta提供了简化管道操作的acid功能,以提高数据作业的可靠性。与此同时,由于缓存和自动索引等其他特性,它实现了对数据的高效和高性能访问。

此外,在数据湖中,我们有常见的流程,如数据提取,其中ETL管道将数据提取到下游系统。我注意到我们的很多企业客户,很多数据,提取和处理,都转移到了三角洲湖,因为他们想要利用这些能力。因此,总体而言,数据的移动确实更少,这为您提供了一个很好的整体数据治理。

这里我想强调几件事,

当你使用Delta Lake或统一数据分析格式时,你是在使用一种开放的数据格式,它是拼花,所以你并没有真正被锁定。Delta Lake为您提供关于业务的历史见解,但同时,为您提供实时见解。这真的很独特。它也使你能够,得到,建立先进的分析解决方案,所以你可以预测未来。这就像知道发生了什么,预测未来,构建像需求预测这样的解决方案,这将Delta Lake架构与传统数据仓库架构区别开来。

高级分析解决方案始终支持通过Databricks。

你可以使用笔记本,或者数据科学家使用笔记本进行协作,建立和创建模型,测试它们。他们还可以将数据中断运行时连接到科学库,如scikit-learn它的G boost。他们还可以使用PyTorch或TensorFlow等深度学习库。他们也可以利用多流程来管理他们的实验,并将其部署到生产中进行推理。

这是一个统一分析平台的快速概述,回到你Lara。bob体育亚洲版bob体育客户端下载

-因此,由于转换到Azure平台,使用Databricks,我们有了很多积极的结果。bob体育客户端下载其中之一就是速度。在我们的ETL工具中,过去需要几周时间才能把源数据带过来,现在只需要一两天,速度真的很快。我们能够很快地使用Databricks来处理这些资产。

我们从一开始就做的一件事是,当我们移动时,我们知道如果我们只是把所有的源数据转移到Azure数据仓库,然后从那里开始,这将是非常快速的。但这也会让我们陷入和以前一样的境地。所以我们坚持把所有东西都计算在湖里,供数据分析团队和数据科学团队使用。现在这种情况确实发生了。我们有几个不同的数据分析团队,他们在湖中的Databricks上做他们自己的分析,把他们自己的资产放在一起,做他们自己的研究。我们也有一个刚刚起步的数据科学团队,他们也可以访问我们创建的所有计算数据资产。这真的是一个很好的开始,让他们不必回到原始数据源。我们的数据集成团队真的很努力,他们正在通过事件架构实时丢弃越来越多的数据。这使我们能够开始实时报告。所以我们有几个这样的例子,我们每五分钟使用Databricks流媒体收集来自商店的销售数据,所有的商店经理都可以访问这些数据来了解全天的最新销售情况。

我们用Databricks外部元存储实现了一个东西,非常棒。这样做的目的是允许我们拥有多个Databricks工作区,但是声明一个主工作区。因此EIM数据工作区是主工作区,当我们启动其中一个分析时,我们称之为内部分析,它与我们的外部亚稳态相连接,这意味着我们所做的每一个变化他们都会得到。因此,工作区旋转起来,它可以看到EIM创建的所有内容以及我们所做的任何更改。这样他们就可以开始了,而不需要去发现我们所做的一切,并骑上他们自己。他们只是从数据开始。他们也可以创建自己的内容,但外部亚metastore不会看到他们。

在此之前,我们是ETL和数据仓库,而我们在CICD中什么都没有。哥伦比亚已经全面进入CICD。因此,我们拥有的每个Azure资源,比如数据仓库、Databricks和数据湖,都是通过管道创建的,我们所有的代码部署都是通过CICD创建的。

弹性、速度和可扩展性让我们付出了很大的代价实现了增长,这对哥伦比亚大学来说真的是爆炸式增长,我们现在获得的数据量以及我们能够为业务生产的东西。自助报告。企业非常高兴,他们能够通过多个入口点获得他们需要的数据。因此,那些在数据中断或数据仓库上,或通过AAS或Power BI,能够访问我们拥有的数据,并且他们能够将这些数据用于他们的业务。

然后所有的数据,真的很高兴我们坚持使用Databricks来进行所有的计算,因为所有的东西都可以在湖里得到。所以只要进入并访问那里,然后数据仓库用于报告层。在过去的一年半里,我们的团队得到了很大的发展,企业投入了大量资金,让人们来收集从劳动管理到我们的仓库的所有数据,所以所有的数据都进来了,整个企业的业务部门都在使用它来进行供应链预测,大数据集,我们以前无法处理所有这些。

这个平台的好处之一是,人们可以很快跟上它的速度。bob体育客户端下载因为在数据领域有很多人大多数数据领域的人都知道Sequel,你是BA,业务分析师,你知道Sequel,你需要验证一些东西你以前在我们的数据仓库里做过,你可以登录Databricks做同样的验证,因为就他们而言,这看起来就像他们正在运行的查询。他们不知道,他们没有意识到这都是基于文件的,所以,我们已经有了很多积极的结果,并且能够用他们的数据来支持业务。

我们吸取了一些教训。我想从这个项目中谈谈。上面这些,将军和数据湖。这与组织和理解有关,对我们来说,做出这种改变意味着大量的企业参与,大量的高管参与我们所做的事情。审计,监控,备份都是我们需要的,数据湖没有备份,我们必须自己提供。我们正在处理这个问题,很多事情都在第一代,第一代,所以我们的数据湖仍然在第一代,它没有备份,我们也在与第一代数据工厂合作。随着时间的推移,很多事情都有所改善。但是对于企业的组织来说,理解这将如何工作对我们来说是一个很大的学习。数据湖安全是另一个大的学习和组织,我们在那里花了很多时间。能够审计和监控你的成本,因为如果你不注意的话,事情很快就会失控。 And Columbia has a big effort going on that right now with COVID, really trying to bring down the costs. The other two, vendor engagement and team, were for me personally. Things that I’ve learned, cannot engage with vendors at the level that I did with this project. Learning how to get in there and really get the people that we needed from Microsoft and Databricks to help us out.

达成协议,他们将为项目提供资金,并有数据架构师提供帮助。然后,我也意识到什么时候该投入一些资金,引入一些专业服务,解除我的团队的障碍,让他们去他们需要去的地方。对于我们的团队来说,这是很多经验教训。所以我有一个ETL开发人员和数据分析师团队,他们非常擅长查询。将这些技能转换为基于文件的数据湖,Databricks带来了挑战。当然了。所以这引起了很多混乱。它被启用的好处是,因为所有人都知道sequel,他们可以到Databricks使用spark sequel立即开始。Python和其他所有我们能做的都可以以后再说。你必须有一两个优秀可靠的领导,他们能解决问题,因为有很多事情需要解决。 And so we had people that were doing a lot of investigation. Everybody was learning something new, how to make something work every day, that was a challenge. Allocating sufficient time for discovery. So even though it is quick to come up on these platforms, when you talk about taking everything from the beginning to the end and operationalizing it and making it, so that it runs three times a day or whatever it is, or streaming, that takes time. And you need sufficient time for people to build things correctly so that you can, support things as they come on, and more and more data comes on. And so that comes with managing expectations from senior leadership.

最后,我要说的是这个项目对哥伦比亚大学的积极影响,我们现在有多少人在Databricks做各种各样的数据发现和分析,企业是多么高兴能够访问他们的数据并做自助报告,我们是多么高兴,我们可以多快地把数据提供给他们,这个平台是多么开放。bob体育客户端下载

点击这里观看更多Spark + AI课程

免费试用Databricks
«回来
关于Bilal Obeidat

Bilal Obeidat是Databricks的一名解决方案架构师。

关于Lara Minor

哥伦比亚运动服装

Lara Minor是Columbia Sportswear公司的高级企业数据经理。她是一位鼓舞人心的IT领导者,拥有10多年的经验,通过创新的技术战略,充满活力的领导力,以及塑造高绩效、多元文化团队的能力,影响企业的增长和盈利能力。

作为一名亲力亲为的教练和导师,我最喜欢为软件开发人员和跨职能团队提供清晰的愿景,有意义的反馈,并激励他们完成大事。当工作环境需要技术天赋、商业头脑和沟通技巧相结合才能取得重大成就时,我的能力特别强。我天生就是一个善于合作解决问题的人,我很擅长处理最具挑战性的项目,也喜欢承担最复杂或有问题的项目。我还擅长在矩阵式的全球组织中进行管理,并致力于在我领导的业务中保持沟通和文化的整合。