为关键任务分析构建数据平台bob体育客户端下载

客户如何利用Databricks在AWS上构建企业数据湖?了解Databricks如何补充AWS数据湖战略，以及惠普如何通过这种方法成功地实现业务转型。

视频记录

非常感谢你们今天的到来。我是Brian Dirking，我是Databricks的合作伙伴营销高级总监，我想介绍一下我们的演讲者。

今天的演讲者

首先是数据库的丹尼斯·杜博。他是AWS合作伙伴解决方案架构师的经理。第二，我们有Igor Alekseev，他在AWS工作，他是数据和分析的SA合作伙伴。第三位是Sally Hoppe她是惠普的大数据系统架构师。好吧，我把这个交给伊戈尔。去吧，伊戈尔，你准备好了就去。-[伊戈尔]谢谢你，布莱恩。在谈论AWS上的数据湖之前，我想先讨论一下，现代数据架构的关键驱动因素是什么?

现代建筑的关键驱动力

首先是数据量。数据正在以前所未有的数量增长，其中包括人工生成的数据和机器生成的数据。与此同时，数据的多样性也在增加。你有日志，你有半结构化的数据，你有表格数据。与此同时，用例的复杂性正在增加。

数据可以通过许多不同的方式访问。与此同时，客户希望数据在一个没有竖井的中心位置可用。

客户希望从他们的数据中获得更多价值

从客户的角度来看，他们需要更多的数据。数据呈指数级增长，因为数据科学家想要更大的数据集，分析师拥有更多种类的数据。现在的数据来自许多不同的来源。它越来越多样化。它被许多不同的人、不同的角色使用。你会听到数据科学家，数据工程师，数据分析师。与此同时，客户希望使用许多不同的应用程序来分析数据。

什么是数据湖?

那么，什么是数据湖?它如何帮助我们?数据湖是一种允许您在中心位置存储大量数据的架构。它可以很容易地用于分析、处理，并且它可以被不同的人群消费吗?

如今，数据湖为机器学习中的分析提供了一个主要的数据源。数据既可以来自本地，也可以作为数据湖的实时摄取。

数据湖架构支持数据科学

那么，数据湖架构能让您做些什么呢?所以有了数据湖，你仍然可以有结构化和非结构化，半结构化的数据，正如我提到的。你可以在没有数据移动的情况下对相同的数据进行分析，数据保持在相同的位置。这有助于扩大规模，因为您不需要移动数据。你不需要阻塞网络。您应该能够独立地扩展存储和计算。Brian谈到过，您曾经根据所需的数据量和存储容量来确定Hadoop集群的大小。但是，当你将存储和计算分开时，你可以处理这样的用例:你可以存储大量数据，但只使用，运行非常少量的it分析，或者你可以存储少量数据，并在其上运行各种复杂和高计算负载。模式可以在分析过程中定义。这意味着您不需要在摄取上强加schema。 You will do schema on read, in this way, it allows the schema to evolve. It will allow more flexible approach to the data.

数据和数据湖应该具有无与伦比的，它们应该具有持久性和可用性。它的规模应该是无与伦比的。下一张幻灯片，我要讲的是AWS的一项服务，它可以给你这样的能力。数据应该是安全和合规的，并且应该具有审计功能。这就是您对数据湖的期望。

来自AWS的数据湖和分析

通过AWS上的数据湖，

如果你在AWS上建立一个数据湖，你应该期望它是开放和全面的。您应该期望使用开放格式。您应该期望您的数据是安全的。使用数据的用户应该获得访问数据的适当授权，应该具有可伸缩性和持久性，并且应该具有成本效益。

Amazon Simple Storage Service (Amazon S3)对象存储安全、高扩展性、持久的对象存储，数据延迟可达毫秒级

我想强调的一个服务可以让你实现这一点，它就是S3。它是安全的、高度可伸缩的、持久的对象存储，具有毫秒级的延迟。您可以以任何您想要的格式存储数据。这里有一些例子。您可以存储CSV或ORC。你可以存储Parquet，你可以存储图像，你可以存储视频。

你可以存储来自物联网的传感器数据。您可以存储web日志，它可以是半结构化的文档。所有这些类型的数据都可以存储在S3中。

S3中的数据可以存储，S3本身就具有11个9的持久性。S3支持三种不同的铭文格式，以解决安全问题。它在S3、SSEC和SSE上支持KMS。

你应该能够运行，你将能够在S3上的AWS上构建的数据湖上运行数据。你可以在上面运行分析。您可以在没有移动数据的情况下在数据湖上运行机器学习工作负载。您可以对S3上的数据进行分类、报告和可视化。

将数据传输到数据湖的大多数方法。开放全面

在S3上拥有数据的另一个重要方面是，如何移动数据?AWS提供广泛的服务。因此，要从内部部署的数据中心移动数据，您可以通过网络使用AWS直接连接。你也可以使用雪球和雪地摩托。这些是离线设备，有一个物理设备，你可以把它连接到你的网络，然后把它们传输到AWS数据中心。有一个数据库迁移服务，可以帮助您连接到本地数据库，并以有组织的方式移动它。有一个存储网关。还有实时机制来移动数据。例如物联网核心，Kinesis Data Firehose，数据流，Kinesis视频流在托管Kafka。

将数据从一个场所转移时需要考虑的重要事情是，你想要一个专用的网络连接。这些电器将是安全的。

“雪球”实际上是一个坚固的集装箱。

网关允许您使用一些本地缓存直接将数据传输到云端。

AWS为您的数据分析提供最全面和开放的服务。如果你考虑这一层，在这一层，你有迁移，我们已经讨论过一些服务。然后是安全管理，数据目录。与此同时，在更高的层面上，我们有分析服务，你可以拥有数据仓库的红移。

再往上看，你有QuickSight这样的仪表盘。Databricks，如果你想到Databricks, Databricks可以在这幅图中作为横切关注点。跨越所有这些层，您可以使用Databricks摄取数据，可以使用Databricks处理数据，还可以使用Databricks可视化数据。

- [Brian]很好，非常感谢你，Igor。好的，接下来，我想把它交给丹尼斯。- [Denis]嗨，我叫Denis Dubeau，是Databricks公司的合伙人业务经理。在本节中，我将介绍数据湖的作用和挑战，但更重要的是，Databricks如何帮助您的组织解决大规模数据湖的许多陷阱问题。

云数据湖非常适合数据存储

首先让我们总结一下什么是数据湖。我们已经讨论了其中的一些内容，但从根本上讲，它是一个支持各种数据类型、速度和数据量的文件系统。而且，数据也可能与事务性的性质不同，事务性通常被称为结构化的，也可能是图像、视频、演讲、网络日志、物联网数据的组合。基本上，可以轻松摄取和存储的任何类型的数据。他们还提供了一种开放的格式，这意味着你可以选择和利用最常用的文件格式，如Parquet, Jaison, CSV技术。并从中心位置通过多个应用程序或服务访问这些数据。您还可以将存储与计算分离，这样就可以将所有数据存储在一个位置，只根据需要提供必要的计算，以处理您的工作负载。它真正的意思是，你只是，你只是用了足够的和及时的，竞争资源来完成手头的工作。最后，您可以通过云存储的数据持久性和较低的成本来扩展存储资源需求，以满足组织的需求，而无需前期投资。

组织想要运作化

现在，当然，每个组织都有一个愿望和需要操作他们的数据。我们发现，关系数据库管理系统通常需要一些复杂的特性。所以他们会想要资产交易这样的功能。因此，您要么能够成功完成事务，要么具有自动恢复功能。也有能力采取点在时间快照和创建优化索引快速查询访问。嗯，拥有数据湖的所有好处，比如在读取提示时拥有模式的灵活性，或者在创建表时立即执行您的方案。同时也结合和简化了流的可靠性你在流，你在批处理。同时保持开放的格式，没有供应商锁定。

数据湖的挑战

现在数据湖很棒，但它们也有许多挑战和复杂性。首先，很难追加和修改现有数据，这是非常具有挑战性的。现在，您还必须根据您将使用的处理框架来处理作业失败，管理作业失败非常复杂，重新启动更加复杂，这最终在很多情况下会导致数据质量问题。卡存储存在许多性能和相关挑战，即使增加了固态硬盘或GPU实例等选项。对数据进行性能访问仍然是一个挑战。大多数细粒度访问控制机制也很难建立和管理。

所以有很多挑战，而这只是冰山一角。

建立数据湖的新标准

因此，在Databricks，我们开发了一个建立数据湖的新标准。顺便提一下，Delta Lake是一个由Linux基金会项目托管的开源项目，也可以在Delta .io上获得。你可以直接在网站上找到更多信息。Delta Lake使用Parquet开放数据存储格式以及事务日志，为您的数据湖提供可靠性和性能，同时与Apache Spark api完全兼容。让我们快速解读一下我刚才说的内容。Delta实际上由两部分组成。它有一个Parquet文件的版本集，这些文件位于您的S3存储桶中，当您对数据进行修改时，我们将保留这些Parquet文件的版本以及同样存储在您的S3环境中的事务日志。

Delta Lake:增加可靠性和性能

这里有一些挑战，很明显，我们已经在三角洲湖泊中概述过了。但是，让我们介绍一些可靠性特性，这些特性是我们作为开源Delta Lake特性的一部分提供的。首先，我们有一个事务日志，它跟踪在文件上执行的每个操作。所以每次插入，更新，删除和(听不清)因此，权限是序列化的，读取是一致的，这意味着在事务成功提交之前，Delta不会看到或读取未提交的数据。这是ACID合规系统提供的。并且还保证和统一批处理和流处理，使前两个顶级功能在第一个OSS功能的横幅。现在，我想说的下一个特性是，它提供了开箱即用的模式强制。因此，在创建Delta表时，模式在每个右边都是强制的。如果需要，还有一种方法可以避免使用模式，但默认情况下，每当摄入新数据时，都会强制执行在创建表时指定的模式。 And the last feature is time travel. Because we have version Parquet files and we have a transaction log, you can actually query previous version of the table. So for instance, you could re-run your report with yesterday’s data or verify the accuracy of a model from a week ago very easily. Now there’re significant benefits of using Databricks on top of your Delta table and we offer additional performance benefits, which leads to a simplification benefits for your data pipeline.

当Databricks写入Delta时，您可以选择打开自动压缩和优化权限。所以自动压缩在封面下操作，它会自动压缩你的小文件到更大的文件。例如，如果您有一个生成大量小文件的流作业，那么Delta Lake将会产生不利的性能问题。因此，通常情况下，你会有一个次要的工作，这取决于你使用的框架，它会进入并将这些小文件压缩成更大的文件，而Spark实际上更喜欢这样。

如果您使用特定的实例类型，它还可以自动缓存查询结果。这意味着在您第一次查询表时，Databricks将创建底层文件系统，将数据拉入集群，然后提供查询。第二次运行该查询(使用相同查询的另一个查询)时，Databricks将使用缓存中已经存在的数据。因此Databricks维护了Delta Lake和本地文件存储之间缓存的一致性。所以它会跟踪缓存中有什么，没有什么。我们还提供了索引功能，这是一种多维聚类能力，我们称之为z顺序。因此，基本上提供了组织一组列的能力，以供分区键以外的其他访问。最后，数据跳过提供了显著的性能优势，它只根据您提供的查询谓词(即查询时间)读取必要的文件或分区。Databricks会自动跟踪每个文件中列的一些统计数据，这样你就可以，当你提供一个谓词，比如，假设客户ID = x，那么我们就会识别出客户ID所在的特定文件，然后我们只读取这些文件来满足查询。因此，与传统的基于parquet的数据集相比，它提供了一个数量级的性能改进。

现在您已经了解了Delta Lake的可靠性和性能特性，实现这个普遍采用的行业框架就非常简单容易了，在这个框架中，您可以将数据源的多种数据类型摄取到我们所谓的青铜层、青铜层或原始摄取层中。当你应用过滤和清理标准来生成你的银层时，我们发现许多组织实际上将权力授予他们的高级用户和临时用户，银层本身也从该层提供或提供他们的ML管道，然后在产生我们的最终结果或最终优化数据之前，这些数据将被发送到下游，为你的仪表板或分析或UPI工作流服务。因此，通过这个细化过程，您将逐步提高数据的质量，直到它可以被服务端点使用为止，并且还允许您评估模式，并在整个分层框架中形成它的需求。因此，当你学习数据并将其发展到卖家和目标层时，你可能想要改进或加强一些模式定义。

Databricks & AWS数据湖实现

因此，如果我们把所有这些放在一起，现在我们了解了什么是数据湖，一些挑战，以及Delta实际上如何允许我们管理这些可靠性和性能特征，了解Databricks适合AWS生态系统是很重要的。现在，这里有几个关键点需要从这里得到，那就是Databricks实际上已经部署，Databricks正在提供的所有这些集群都在部署客户的VPC。因此，它们部署在您维护的VPC边界内。我们还直接与S3层交互。因此，数据保持原样，随着数据湖得到补充，然后我们重新写入到相同的数据湖层。所以你可以完全控制你的数据，这是整个生命周期。

正如你所看到的，我们还有来自(数据和人工智能领域)的第一方服务的数量。因此，我们拥有一整套优化的连接器，并在AWS生态系统上进行第一方集成。例如，如果你在消费数据，摄取数据，如果你从左到右阅读这个图表，当你读取和摄取数据时，我们有特定的连接器到Kinesis。我们有一种优化的读取和写入S3的方式，以及许多直接与Glue连接的连接器作为您的企业数据目录。向你的红移层或雅典娜提供数据，然后通过Glue连接到你的数据湖。还有MLflow，这是另一个开源项目，它有一种非常简单的方法来提供一个模型，你可以在Databricks中构建和品尝，然后(听不清)到SageMaker(听不清)进行实时服务选项。因此，许多不同的连接器和优化的方法可以在整个生态系统中摄取和服务数据，同时维护和驻留在客户的VPC中，并随着数据的增长利用您的Delta Lake并补充补充您的Delta Lake，而无需将数据移到外部以不同的文件格式。

我们还集成了一些额外的服务，比如身份访问管理，云形成，云追踪。这些都是AWS生态系统内的所有管理和治理功能，以及与SSO的完全集成Databricks是完全集成的，实际上是您的AWS SSO提供的应用程序名称之一，简单的管理和部署。我们还集成了许多其他服务。从特勤局到能力或步功能能力。我们与很多服务进行了很好的整合，但这只是让你们对我们支持的一些服务有个大致的了解。

- [Brian]太棒了，谢谢丹尼斯。好的，接下来，我想把它交给莎莉。-[莎莉]嗨。我要感谢Databricks邀请我来演讲，我和Databricks以及AWS的合作非常愉快，所以能够分享我们在惠普所做的工作，以及我们如何从内部解决方案过渡到使用AWS和Databricks的解决方案，以及我们如何进一步发展我们的解决方案以达到下一个水平，这是非常棒的。所以请继续下一个。

我叫Sally Hoppe，是惠普打印大数据部门的总架构师。我们的工作与家庭，办公室和工业印刷。我过去工作过的其他领域是OpenStack、网真、地震传感、特种打印。当我在做海洋学研究的时候，我和大数据打交道，用的是非常大的机器，那很有趣。下一张。

在惠普，我们从我们的打印机中获得遥测数据，我们想了解更多关于客户的信息，他们是如何使用这些数据来生产更好的产品，了解产品出现问题的时候，并对其进行分析。我所在的小组，我们输入数据，我们想要确保我们可以净化它，使它正常化，使这些传入的原始数据，对我们的数据科学家有用。创建仪表板来帮助推动我们的业务，解释正在发生的事情，并能够提供我们需要的反馈，不仅可以继续我们现有的业务，还可以创造新产品。所以，丹尼斯和其他人谈论的很多途径，引入原始数据，清理它，发布它，规范化它，并提供这些数据来进行机器学习，分析，创建仪表板，这就是我们所做的。所以我想向你们展示我们的一些架构，告诉你们我们遇到的一些问题，我们的解决方案以及我们下一步的方向。下一个。

挑战与技术选择

我们有这个库存。我们有一个使用Hadoop的遗留解决方案。它是在预置的，它没有按我们需要的方式扩展。因此，我们求助于AWS和Databricks，将我们的解决方案从内部部署转变为基于云的解决方案。我们使用Hadoop，我们使用Spark，并真正能够将一个需要几个月处理的系统转化为几周。这个系统原本需要几个月的时间来处理。现在我们每天都在做，我们会尝试在流媒体上做更多的事情，我们已经能够加速为业务提供结果，扩大我们支持的平台数量，扩大数据源的数量和数据量。bob体育客户端下载

这张幻灯片展示了我们系统中管道的一个结构。基于这个架构，我们有大约30个不同的管道。其中一件非常好的事情是我们已经能够配置管道，这样他们就可以以不同的数据湖为起点，以不同的存储库为起点，通过并创建青铜、白银和黄金数据湖。所以如果我们从左边开始，你可以看到我们有打印机遥测技术，它是不同的……各种各样的，在喷射激光或家庭办公室，大格式，随着时间的推移，它们有非常不同的格式。数据是不同的，公式的问题是我们需要处理的，所有这些都是进来的。因此，我们的首要活动之一就是摄取这些数据。所以，我们把它带进来，我们使用卡夫卡和Kinesis Firehose，把它放到一个数据湖里。数据湖就是我们获取着陆数据的地方，刚刚开始。这就是我们得到原始数据的地方。这就是我们的青铜雕像，非常原始的档案数据。 And then we have a first stage of processing it. And one of the reasons we have this first stage that is our raw processing is because our data is coming in many different formats, and our goal is to normalize it in the end, so you can do machine learning and analytics on it. And so this is why we have a multi-step process that we go through is, the first step is we transform everything into a similar structure, so that when we start posting out the data and pulling the pieces out of our semi-structured data, that we have it in a consistent manner that we can use Spark effectively.

loT数据分析管道演进

我们来谈谈技术的发展，这就是我们的批处理，现在我们将更多地转向流媒体。你可以看到我们有数据进来，我们用的是Kafka。我们正在做的一件事，对我来说非常有趣的是，当数据进来时，我们正在更新Databricks中的仪表板。当新产品上线时，我们看到的数据帮助我们进行分析，能够识别我们得到的是什么类型的数据，是否有错误，并且能够更快地对我们得到的信息做出反应，甚至在它开始通过管道之前。然后，我们也在研究不同的方法来处理我们的物联网数据，因此我们正在研究我们的事件聚合，及时创建快照，提供历史，这确实充实了我们提供的数据产品。我们谈到了数据目录，这是我们产品组合的关键部分，我们的数据产品进入了我们可以访问的数据目录。我们确实使用Glue，并且有那些Delta Lakes可用，还有Athena，以及Parquet数据湖。我们使用光谱将数据带入红移，同时进行直接加载。因此，我们真的在关注端到端的完整图景，不仅能够处理数据，有我们所有的数据质量检查，而且能够让数据被多个小组发现和重用。我们发现的一件重要的事情是，当我们在制作数据产品时，我们发现人们一遍又一遍地制作相同的数据产品，因为他们不知道现有的数据产品已经可用。 And so by having a data catalog, providing the appropriate levels of permissions in security, we’ve been able to scale by not having people create the same data products but being able to use the same data products in the data lakes, being able to use similar dashboards, and being able to be more self-service. And so that’s been a really great transition for us, is to be able to democratize and make our data sets more published and available.

谢谢你！

- [Brian]太棒了。非常感谢你们三位今天的讲座。看来我们没时间了。因此，如果您有任何问题，请务必访问AWS展位。

点击这里观看更多Spark + AI课程
或
免费试用Databricks

«回来