哥伦比亚迁移从遗留数据仓库与三角洲湖开放的数据平台bob体育客户端下载

下载幻灯片

哥伦比亚是一个数据驱动的企业,所有line-of-business-systems集成数据管理它的批发和零售业务。这包括集成实时和批量数据更好地管理采购订单并生成准确的消费者需求预测。它还包括分析产品评论,增加客户满意度。在本课程中,我们将介绍如何实现一个管道创建时间减少70%,减少与先前的数据仓库ETL工作量乘以从四个小时分钟使用Azure砖,因此使附近的实时分析。我们从多个遗留数据仓库,由个人的业务线,一个可伸缩的、可靠的、高性能数据湖在Azure和三角洲湖。

看更多的火花+人工智能会话

免费试着砖

视频记录

——嗨,我的名字叫劳拉小,我在哥伦比亚运动服装工作。今天我要和你谈话关于哥伦比亚将其遗产报告和分析平台Azure,包括使用砖、三角洲湖。bob体育客户端下载EIM是企业信息管理的部门我在哥伦比亚运动服装工作。哥伦比亚销售多个品牌,包括生活方式、外套、鞋子,在全球范围内。EIM,收集数据从这些多个品牌和区域和构建数据资产,允许业务数据驱动决策诸如销售、采购、供应链和产品优化。我在EIM数据交付的部分工作。还有一个数据治理团队,我会谈谈我们在前进。在数据交付,我们负责构建这些数据资产。今天和我们的技术堆栈包含数据工厂,数据湖,砖,突触数据仓库。我们也有SAP BW / Hanar我们创造许多运营报告的SAP平台。bob体育客户端下载

在我们的发展中,我们做一些集成在哥伦比亚,我们确实有一个集成团队。但在数据交付,我们做很多更面向批处理的,高容量、数据集成与第三方或在哥伦比亚。然后最工作,我们得到来自与构建我们的数据资产。所以我们建立关系和空间模型,支持报告。我们也有与数据科学团队刚刚开始。我们支持数据分析团队,现在的平台。bob体育客户端下载我们从这里开始很传统的BI类型平台,我们有专业的ETL工具,我们用来把数据从整个公司和bob体育客户端下载把它放到我们的数据仓库。然后我们有一个特殊的报表工具,需要技能为了发展。这是非常缓慢的问题来收集数据,这是非常缓慢的构建资产。然后整个平台所需的特殊技能。bob体育客户端下载 And we could not keep up with the business needs, we kept running into just they want more than we could do. And about the time that we switched to the Azure platform, a couple of things kind of came together at Columbia. One, for enterprise architecture, we decided to go with the cloud, we wanted to push for more cloud. We have an integration team that was switching from point to point integrations to event architecture. And at the same time, our Hanar database was kind of getting more and more data, and it competing with our data warehouse, we wanted to figure out one platform. With this data warehouse that we had, we were going to have a very pricey, multi million hardware upgrade that was due. And so we were looking for something that was scalable and elastic and a lower cost, would support a self serve reporting model. We did some studies and we settled on Azure.

所以我们现在搬到这个架构,我们,我们使用数据工厂引进数据来自公司的品牌和企业范围的区域。和我们到湖边以及我们的流进来,我们马上到三角洲湖。在三角洲湖后,我们可以把所有这些来源和把它们放在一起到我们的空间,我们的关系和支持业务的维度模型。我们所有的计算使用砖在湖上。

曾经我们都发现,我们将更改的数据集,我们推到数据仓库。所以我们的数据仓库是一个复制的资产,我们已经创建了数据的湖。我们不要把所有的原始数据在湖里只是业务报告所需的资产。

我们使用Azure分析服务挂钩的突触,BI和力量。我们促进自我服务的业务要做汇报整个项目,我们已经通过。

科技是一件事,当你做一个大项目,至少对我们来说,我们发现有很多事情以外的技术,我们需要考虑。这成为整个公司的重大问题。我们以前,BI平台非常自我,这是控制。bob体育客户端下载没有别人进来,没有大量的数据访问。所以安全,谁会在这个平台上没讲过。bob体育客户端下载但是一旦我们打开到Azure平台,它的所有数据数据湖和可访问整个企业,和企业bob体育客户端下载能够自我服务,带来了很多谈论安全的数据,谁拥有数据,谁能作出决策数据。这就是我们的数据治理团队真的派上了用场。所以我们的数据治理团队已经确认数据所有者和数据管理员可以决定数据的安全等级。在我的小组中,我们有两个安全分类,我们主要处理。一个是内部的,这意味着它对所有人开放的哥伦比亚的报道社区,和其他限制。 So an example of restricted data is consumer, right, ’cause of GDPR in California.

也可以限制其他的数据。然后我们发现,这不仅仅是原始数据的限制,但它也可以限制这些数据资产。所以当销售和产品和供应链数据的原始来源,可以分为内部。当我们创建一个数据在所有地区销售和品牌资产,包括预测、毛利率、资产和成本,突然受到限制。和他们想控制谁有权访问这些信息。所以花了很多时间了解高管尤其是他们担忧他们为什么要限制数据,我们希望保持尽可能的开放。但有人担心滥用。所以他们希望跟踪。我们发现,我们做的是识别不同的概要文件的人可能会访问我们的平台,例如,数据分析师,这将是一个业务分析团队,,或者一个分析团队,以支持业务单元。bob体育客户端下载它可以包括数据科学家,我们没有很多的哥伦比亚大学,这是一个小群体。 And they basically have access to all internal and restricted data, we don’t try to lock them down. We have info consumers, in this is a group that we work with all the time at Columbia, because they’re the ones that help us decide how to build those data assets, what they wanna see in there, what metrics, what KPIs, how things should be calculated, how that is the raw data should be transformed. And they also have access directly to the data warehouse because you can’t do everything in an AAS and in a Power BI Report. Those folks need to get in and do some heavy lifting, and they do that directly on the data warehouse. And then the biggest group that we have, and this is where most of the conversation happens is for the info consumer, which is all of Columbia’s reporting community and how they get access to the platform. And how we supply access to the platform in Databricks and data lake, and the data warehouse, is much different to how it’s done in Azure Analytic Services. So our goal was to make it so that when we get to that analysis services and Power BI in place, the access to the data is controlled by the business. It’s determined by the data stewards and the data owners and they also get to figure out how to set that, how to, who gets added. And we do have methods of them, for them to do that.

所以我们的数据布局不安全感,湖需要真正理解业务想做就限制数据为了正确进行设置。我们绝对不希望数据沼泽,我们花了很多时间在我们的数据布局湖在我们的安全模型。所以在所有这些,我们所有的平台,没有一个人能够访问过,都是通过安全组控制。bob体育客户端下载所以这些限制域和内部域安全组相关联。你可以添加其他安全组成,让人访问他们。我们主要有这三个湖容器的高度数据,我们有我们的原始来源,这是所有原始的源数据,我们将从所有的品牌和地区公司。然后我们策划是我们创建这些数据资产。所以原始数据进来,我们组织我的源系统,因为我的团队,我们将数据从源时,这就是我们与它,我们不涉及它,因为这是产品,这是销售,它可以是各种各样的数据来自一个源系统。这是如何被组织。

这个内部和限制域。当我们开始,我们有我们的访问层,或我们的安全层,五层深。这并不奏效。我们不得不把它,因为它是非常复杂的控制,是否有人访问五层深。我们做的第二层次。一旦你获得内部或限制,你的路上,你可以访问下面的一切。然后我们使用砖,创建这些资产,我们把他们移到这个策划区域。在这里它是由数据域。数据域是由我们的数据治理团队。数据域分配给所有者或数据管家。 Most of our assets cross multiple data domains, for example, in that report I said that we have sales across the company, also includes product and supply chain data. But we do have that in sales. And then the multiple data owners can participate in access requests for that. So we organize it by the domain, which is a schema and a table name. So it might have product, data sales, data, those are the different types of domains that we have. And again with restricted so our consumer domain, some of our forecasting is in restricted, which means it has limited access.

然后我们也计算文件夹。这是当我们还没有,我们有几个分析团队操作的砖。他们可以阅读所有的原始数据和策划的数据集,和他们可以创建自己的资产和写他们自己的目录,只有他们有访问权。

我要传给Bilal现在,谁来进一步讨论的平台?bob体育客户端下载——大家好。我的名字叫Bilal Obeidat,我是一个长期的数据极客有超过15年的经验。我一直为砖作为一个解决方案架构师的工作超过三年。作为我们的战略客户服务团队的一部分,我工作的地方与我们的企业,一个客户端,如哥伦比亚和使用砖来解决数据和人工智能问题。我想花几分钟谈统一数据分析平台。bob体育客户端下载这是一个常见的架构模式,是通过我们的许多,实际上我们的大多数客户砖。当你看到在过去的几张幻灯片,劳拉。

哥伦比亚架构是一个定制的版本统一的分析架构。bob体育亚洲版在一般情况下,这个架构和三角洲湖是普遍和广泛采用。

统一数据分析平台bob体育客户端下载

在此体系结构中我们有实时数据和批处理数据。

实时数据是通过卡夫卡或事件直播中心或任何其他流媒体技术,批量数据通常你写管道,ETL数据到三角洲湖。这就是实时数据和批处理数据聚集和土地到三角洲湖连续数据格式。它可以清洗,聚合成为银数据,它也可以成为策划数据丰富,从那里可以上传到一个数据仓库技术,如果我们有一个低延迟和高并发性需求报告这些数据。

就像一个快速知道三角洲,砖是一种计算引擎。它不是一个真正的存储引擎,所以你可以利用云存储的目的。

三角洲提供酸功能,简化操作的管道来增加可靠性数据的工作。同时,它使有效高效的访问数据,因为缓存等功能和自动索引。

湖内的数据,我们有共同的过程像数据提取,ETL管道下游系统提取数据。我注意到与我们的许多企业客户,大量的数据和提取和处理,是搬到三角洲湖,因为他们想利用能力。所以整体你真正少运动的数据给你一个伟大的整体数据治理。

一些事情我想强调,

当你使用三角洲湖或统一数据分析格式,您使用的是一个开放的数据格式是拼花,所以你并不是真正的锁。三角洲湖提供你在商业历史的见解,但与此同时,为您提供实时的洞察力。这是非常独特的。它还使你,,建立先进的分析解决方案,这样你就可以预测未来。这是想知道发生了什么,预测未来并构建解决方案需求预测、杰出的湖三角洲体系结构从传统的数据仓库架构。

先进的分析解决方案总是支持通过砖。

您可以使用笔记本电脑,或者数据科学家使用笔记本电脑进行合作,建立和创建模型,测试它们。他们还可以减免桥数据运行时喜欢scikit-learn G提高科学库。他们还可以使用深度学习图书馆像PyTorch,或TensorFlow。我们还,他们还可以利用多流管理实验推理和部署到生产环境。

这是一个快速概述的统一的分析平台,回到你身边劳拉。bob体育亚洲版bob体育客户端下载

——所以我们由于切换到Azure平台,砖,我们有太多的积极成果。bob体育客户端下载其中一个是速度。曾经花费数周时间在我们的ETL工具将源数据,现在需要一到两天,只是非常快。我们能够在这些资产使用砖很快。

从一开始我们做的一件事是当我们感动,我们知道这将是很快,如果我们把所有的源数据和数据仓库到仓库进入Azure和从那里去了。但这也会让我们在同一个地方,我们之前。所以我们坚持一切都计算在湖上,并可用于数据分析团队,和数据科学团队。这是真的上演了。我们有两种不同的数据分析团队在湖里砖和做自己的分析,把自己的资产,和做自己的研究。我们也有一个数据科学团队刚刚开始,他们也可以访问所有的计算数据资产,我们已经创建了。那就一个良好的开端,对他们来说没有回到原始数据源。真正将我们的数据集成团队,他们把越来越多的数据通过事件实时架构。这让我们开始实时报告。我们有几个人,我们总销售数据使用砖流从商店每隔五分钟,和所有商店经理访问最新的销售。

我们只是实现了一个与这个砖外部元商店,这真的很棒。什么,是它让我们有多个砖工作区,但声明一个主人。所以EIM数据工作区是主,当我们自旋向上的分析,我们称之为一个内部,外部metastore钩子我们,这意味着我们所做的每一次更改。工作区旋转起来,这样看到的一切EIM创造了和我们做任何更改。所以他们可以不用去了解我们所做的一切,自己安装。他们马上开始数据。他们也可以创建自己的增加它自己的内容,但外部metastore不会看到它们。

以前,我们是ETL和数据仓库和我们在蔡先生无关。哥伦比亚已经蔡先生。所以每个Azure资源,如数据仓库,数据砖,湖和数据都是通过一个管道,以及我们所有的代码部署是通过蔡先生。

不能说足够的弹性,速度,和可扩展性使得增长很多成本,这对于哥伦比亚刚刚真的爆炸了,我们进来的数据量的事情,我们能够生产的业务。自我服务报告。业务是非常高兴,他们能得到他们所需要的数据,与多个入口点。所以那些,在数据破坏或数据仓库,或通过原子吸收光谱法或权力BI,能够让他们对数据的访问,他们能够使用他们的业务。

然后所有的数据,真的很高兴,我们坚持砖使用我们所有的计算,因为一切都是可以在湖上。进来和访问,然后是数据仓库用于报告层。在过去的一年半,我们增长我们的团队业务真的把一大笔钱,让人们来收集数据从从劳动管理,我们的仓库,所以所有的数据,和业务部门使用它在整个企业供应链预测,大数据集,我们只是没有能力处理将在以前的一切。

这个平台的好处之一是,人们可以达到多快的速度。bob体育客户端下载因为有很多人在数据空间中大多数人知道续集在数据空间,所以你是英航,业务分析师,你知道续集,你需要核实一些事情和你用来做在我们的数据仓库,你可以登录到砖和做同样的验证,因为在他们看来,它看起来就像他们的查询运行。他们不,他们没有意识到这都是基于文件的封面下面所以,很多我们的力量积极成果,并能够使业务数据。

我们有一些经验教训。我想谈谈这个项目。这些顶尖的,一般数据湖。这是一个很多关于组织和理解,使这种变化对我们来说意味着很多企业参与,很多高管参与我们在做什么。审计、监控、备份的东西我们需要为了,湖没有备份的数据,我们自己必须供应。我们通过很多事情,创一个,上一代,所以我们的数据仍在创一个湖,它没有备份,我们还与数据工厂创一个乏味的人工作。很多事情随着时间的推移有所改善。但企业的组织,了解的工作访问对我们来说是一个很大的学习。然后数据安全是另一个湖大学习和组织,我们在那里花了很多时间。能够审计和监控你的成本,因为事情会很快失控如果你不注意。 And Columbia has a big effort going on that right now with COVID, really trying to bring down the costs. The other two, vendor engagement and team, were for me personally. Things that I’ve learned, cannot engage with vendors at the level that I did with this project. Learning how to get in there and really get the people that we needed from Microsoft and Databricks to help us out.

提出的协议,他们将基金的事情,帮助数据架构师。然后也意识到是时候放下一些钱,带一些专业服务,为我的团队,让他们他们需要的地方。对我们的团队来说,这是一个很多的经验教训。所以我有一个团队的ETL开发人员和数据分析师擅长查询。和那些技能转移到基于文件的所有数据湖与砖带来的挑战。当然。所以有很多混乱。好事是,的方式,使是因为这些人知道续集,所以他们可以在砖和使用火花续集马上走了。Python和其他的,我们能做的来。和你必须有一个良好的坚实的领袖或两个的事情,因为有很多。 And so we had people that were doing a lot of investigation. Everybody was learning something new, how to make something work every day, that was a challenge. Allocating sufficient time for discovery. So even though it is quick to come up on these platforms, when you talk about taking everything from the beginning to the end and operationalizing it and making it, so that it runs three times a day or whatever it is, or streaming, that takes time. And you need sufficient time for people to build things correctly so that you can, support things as they come on, and more and more data comes on. And so that comes with managing expectations from senior leadership.

就完成,我不能说足够的积极影响这个项目已经在哥伦比亚,我们有多少人在砖现在,做各种各样的数据发现和分析,业务如何很高兴访问他们的数据和自我服务报告,我们是多么高兴和我们能有多快,以及开放的平台。bob体育客户端下载

看更多的火花+人工智能会话

免费试着砖
«回来
关于Bilal Obeidat

Bilal Obeidat是砖的解决方案架构师的工作。

关于劳拉小

哥伦比亚运动服装

劳拉小是一个高级企业数据经理哥伦比亚运动服装。她是一位鼓舞人心的领袖与10 +年的经验影响公司发展和盈利能力通过创新的技术策略,动态的领导下,和一个高性能形状的能力,多元文化的团队。

的教练和导师,我最喜欢提供软件开发人员和跨职能团队清晰的愿景、有意义的反馈和激励他们做大事。我特别强烈的环境中工作时,需要一个强大的技术能力、商业头脑和沟通能力以达到主要的里程碑。协作解决问题的本质,我舒适导航最具挑战性的项目,享受最复杂的或有问题的计划。我也熟练在矩阵式管理全球组织,致力于保持沟通和文化不可或缺的业务领导。