SQL分析为Comcast的遥测分析提供支持

2021年5月28日上午10:30(太平洋时间)

康卡斯特是通讯、娱乐和有线电视产品和服务的领先提供商之一。它的核心是康卡斯特RDK为行业提供遥测的主干。RDK(参考设计工具包)是一个预先捆绑的开源固件，用于一个完整的家庭平台，涵盖视频、宽带和物联网设备。bob体育客户端下载康卡斯特的RDK团队分析每15分钟从客户家中安装的7000万台设备(视频、宽带和物联网设备)中收集的pb级数据。他们每天运行ETL和聚合管道，并发布分析仪表板，以减少客户呼叫和固件推出。该分析还用于计算WIFI幸福指数，这是康卡斯特客户体验的关键KPI。

除此之外，RDK团队还通过分析RDK固件质量来进行发布跟踪。SQL Analytics允许客户操作湖屋架构，以数据湖经济的方式提供数据仓库性能，SQL工作负载的价格/性能比传统云数据仓库高4倍。

我们用SQL Analytics和delta引擎展示了我们与Databricks团队合作的“测试和学习”的结果。bob体育外网下载我们展示了一个快速的演示，介绍了SQL本机接口，我们在迁移中面临的挑战，执行的结果和我们大规模生产的旅程。

在本节中请注意:

Suraj Nesamani(康卡斯特开发者

Molly Nagamuthu, Databricks的架构师

免费试用Databricks

成绩单

Molly Nagamuthu:大家好，感谢你们的到来。欢迎来到SQL分析的讲座。对于今天的议程，我们将通过简单地了解Lakehouse平台来设置SQL分析的背景，它是什么，为什么我们需要它以及SQL分析适合在哪里。bob体育客户端下载我们还将深入了解SQL分析。我今天的搭档，Suraj Nesamani，将会继续介绍我们测试的遥测用例的所有细节。在简要介绍我自己之前，我叫Molly Nagamuthu。我是Databricks的常驻解决方案架构师。在这个职位上，我有很好的机会与我们的关键战略客户合作，利用我们的Databricks平台帮助他们解决最困难的数据和人工智能实施。bob体育客户端下载我在产品开发、工程和专业服务方面有20多年的经验。这是我在不同行业的一些优秀公司工作过的有益经历。 I’ve been with Databricks for about two years and I’m loving it.
让我们开始吧。Datebricks的愿景是为所有企业提供数据驱动的创新。为了使这一切成为可能，我们引入了湖屋平台。bob体育客户端下载Lakehouse是Databricks提出的概念，旨在让企业更容易地将最好的数据仓库和数据湖组合到一个平台上。bob体育客户端下载为什么我们需要这个?因为尽管该领域取得了所有的进步，但大多数企业仍然在数据方面苦苦挣扎。如果您需要构建一个端到端数据驱动的企业，那么您需要构建如下所示的四个不同的堆栈来处理您的所有数据需求。这就是数据工程、数据仓库、实时摄取、数据科学和机器学习。通常，就目前的情况而言，它们是非常不同的技术，通常不能很好地协同工作。这样做的原因是，如您所见，有很多可用的工具。
唯一的问题是它们是断开的。在某些情况下，你必须处理各种专有格式。当你向它添加具有不同技能集的角色时，现在我们谈论的是孤立的数据团队，它们不能有效地沟通，从而降低了生产力，核心问题是建立在技术堆栈之上，为了解决这些问题，Databricks提供了一个完整的Lakehouse平台。bob体育客户端下载它在云中运行，横跨所有的云。因此，它是多云的，并与所有不同的云原生功能紧密集成。您的数据可以保留在开放数据湖中。
Databricks with Delta提供数据管理和治理，以确保安全性、可靠性和性能。它支持数据工程、BI数据科学和实时应用程序在一个平台上的所有工作负bob体育客户端下载载。将所有这些工作保存在一个平台中，简化了数据团队的工作，并允许轻松bob体育客户端下载协作。现在让我们关注Databricks SQL Analytics。
到目前为止，我们有5000多名客户。作为spark Delta动物流的原创创始者，我们与各个行业的企业都积累了丰富的合作经验。我们已经在数据摄取、ETL处理和机器学习方面建立了经过验证的跟踪记录。唯一需要处理的差距是为BI和SQL分析提供一个健壮的机制。
在这里，我们有了最新的工具套件，Databricks的SQL分析。它为Databricks中的SQL分析师提供了一个家，并提供了以更好的价格和性能查询您的湖屋的能力，简化了新见解的发现和共享，连接到熟悉的工具，如Tableau或power BI，并简化了管理和治理。除了本地的可视性和可视化工具，SQL分析还为所有现有的BI应用程序提供支持。BI工具的范围相当广泛，包括Tableau和Power BI。您可以连接SQL分析端点以获得可靠的数据和快速的查询性能。
现在让我们看看它支持的一些广泛的用例。它们主要是三重的。第一个是通过将首选的BI工具(如Tableau或Power BI)与SQL分析端点连接到数据湖，最大限度地提高现有投资，连接器完全重新设计和优化，以确保快速性能、低延迟和高用户并发到数据湖。
第二种是更快地响应业务需求，为组织中的分析师设计了自定义体验。Databricks SQL Analytics提供了一个简单而安全的数据访问。您可以创建或重用后续查询，并快速模拟和迭代最适合业务的可视化和仪表板。最后但并非最不重要的是，您可以为自己的组织或客户构建丰富的自定义数据增强应用程序。现在我想指出的是，这里的关键是你在你的数据湖上做所有这些，而不是将数据转移到任何工具来获得这些见解。数据湖上的数据总是可用的。
现在让我们看看它是如何工作的，以及使它成为可能的组件是什么。首先，我们需要确保在数据湖中以开放格式管理数据。不管它是结构化的还是非结构化的数据。数据湖成为体系结构的基础部分。当然，我们需要一个本地续界面来查询整个数据湖，并能够可视化这些结果。如果我们正在连接现有的BI工具，那么我们就需要优化连接器来连接您的数据。这些都是由Databricks提供的。其次是计算机本身。如果你过去使用过Databricks，你就会知道通过创建和配置集群来设置你的计算是多么容易，但是SQL Analytics通过后续端点更进一步，并抽象了很多复杂性，使其变得更加简单。
这其中最重要的部分是一个强大的、完全重写的矢量化续作引擎。你能得到的所有性能提升。为了在Databricks工作空间中查看所有这些内容，让我们进行一个快速演示。澄清一下，这不是我们要展示的用例的演示，这是前一张幻灯片的延续，可以看到我们刚刚讨论过的所有组件，以及它们在Databricks工作空间中的样子。让我们继续并登录到Databricks工作区。一旦您登录到Databricks工作空间，您将看到您的常规数据工程工作负载和集群等等;和你习惯的一样。您还将能够看到您的ML端到端管道，所有的ML模型等等。如果你，如果sequel analytics被安装在工作区中，那么你可以从这里访问它。
点击它。一旦我们有了它，这就是秘密分析的主屏幕。因此，让我们先看看探索性数据分析用例，我们可以继续创建一个查询、一个仪表板或一个警报。点击create query，这里有SQL编辑器，编辑器自动启用了自动填充功能。当你输入的时候，你可以看到有哪些选项，如果你想禁用它，你可以通过点击这里禁用它，你可以创建bottom，如果你需要，可以很容易地尝试square。这是所有你可以访问的数据库的数据浏览器使用大语句可以很容易地控制访问。你可以看到表的模式，还有你可以访问的其他数据库等等。
这是端点。我们稍后会讨论这个问题。这是SQL分析的主要计算。让我们来加载我们已经有的查询。我们只是想探索TPCs数据库。我只是在做一个简单的查询，看看有哪些可用的呼叫中心。让我继续今年的执行。不会占用太多时间，是的，我们有。对于结果，我们实际上可以很容易地添加可视化。你可以看-你可以选择x轴y轴和任何，任何列的聚合，你可以，你可以创建任何你想要的。 We just fired a very simple query, so I’m just going to use the simplest visualization possible on this. I’m just looking at how many employees are distributed for- per call center for each of these cities.
一旦你有了查询的可视化，你可以很容易地将它添加到仪表板中，只需要将那个可视化添加到仪表板中。现在我们来看看如何拉这些仪表盘。我们有一个仪表板，在那里我们添加了那个查询。我们有另一个查询，我们刚刚把它添加到仪表板中，那只是一个对我刚刚运行的聚合的查询。接下来，让我们，也可以为这些查询，为某些条件设置警报。这里我有一个总和的警报集，它大于一百万美元，我可以在这里添加任意数量的用户来发送警报邮件。建立起来很简单。如果你有仪表板在这里定期刷新，我没有设置它在刷新，只是为了给你们展示这个功能。
一旦你有了刷新计划，那么你知道，状态会根据发生在仪表板上的刷新被触发。这就是我们如何探索，如何使用后续分析进行探索。现在让我们看一下，可用的端点。对于这里的端点，有两个端点。正如我之前提到的，这些是t恤大小的，大的和中号，创造一个想法很简单。没有很多。你需要做的只是名称，端点的t恤大小，活动的分钟数来自动停止负载平衡最小值和最大值，然后我们是否需要photon on或off, photon需要我们刚刚谈到的向量化查询引擎。当然还有现货实例策略等等。
现在，一旦我们有了端点，让我们看一下这个的连接细节。它带有这个URL。这是你用来从Tableau或Power BI或任何你需要的BI工具连接的URL。端点也有一个SQL端点API。你可以使用那个端点到API来触发，自动化端点并从你的应用程序执行查询。另一种，一些随监控指标而来的指标是，查询的数量，峰值运行查询和峰值急性查询，这里我们没有很多事情发生它不是，它是一个共享的共享集群;所以这不仅仅是我们刚刚运行的负载。它也有端点使用的簇的数量。这里它不超过1 -我们设置它的均值为1，最大值为4，但看起来它只使用了一个聚类。
这些是一些，一些，这些是其中的一些，一些我们刚刚讨论过的关于SQL分析的特性，在整个峰会上，我们关于这些的讨论，我们现在不打算深入讨论，因为我们仍然，我们必须讨论我们测试它的用例。有很多讲座都深入探讨了这些组成部分。所以，请看看这些。这是每个t恤大小端点的集群级映射。
让我们看一些额外的资源。在Databricks网站上有很多额外的资源。我们还可以在Databricks的Lakehouse平台上使用我们的SQL Analytics, MVP客户成功产品来加速您的BI用例，该bob体育客户端下载产品将于第二季度推出。对于我刚才提到和展示的每一个组成部分，他们在峰会上都有很多相关的会谈。如果你之前错过了这些，我们会在我们的虚拟平台上提供，我想一个月左右。bob体育客户端下载现在告诉我们所有关于我们在康卡斯特工作的遥测用例，我把今天的搭档交给了Suraj Nesamani，你先请，Suraj。谢谢大家。

当然，Nesamani:谢谢莫莉。大家好。谢谢你的到来。在开始之前，我先自我介绍一下。我叫Suraj Nesamani。我是康卡斯特公司的首席工程师。我有15年的工程经验，主要专注于RDK遥测和大数据分析。我领导了一个由分析师和工程师组成的团队，他们负责构建RDK平台，分析平台。bob体育客户端下载我专门研究RDK遥测分析，为什么它们会作为索引pod推荐引擎出现，当然还有处理pb级的缩放数据集。现在让我们来谈谈RDK[听不清]RDK代表Rutgers Descent Kit，是一种开源格式，它预先捆绑在你家里任何带有康卡斯特[听不清]的设备上。bob下载地址 So be it a video broadband device or IOT devices. To give you an example, if you’re on a phone with a service tech, because you set your set up box or your wifi gateway- gateway is not working, and they are sending a radio signal to a center box.
这就是他们所在的手机，我们与之互动的手机。在早期，康卡斯特创建了这个规范，但现在它是开源的，在媒体行业和遥测行业非常受欢迎，几乎所有具有RDK的设备都有遥测的能力。bob下载地址我们在北美安装了将近1700万台设备。我们在RDK设备上的遥测数据上做了很多ETL聚合。我们用这些数据来开发仪表板，这些数据被用于商业论证，以及添加和推出前者。现在让我们讨论一下RDK遥测和数据管道架构。任何预先构建的设备，都带有RTK固件，我们称之为文章设备。我们有近1700万台设备，分布在全国各地。我们每天有接近24tb的数据，我们从这些设备上收集。
顾名思义，遥测就是设备本身收集的数据。我表示设备感知，遥测事件，每15分钟，数据就会被收集到云端。现在让我们看看如何在云中收集数据。RDK遥测[听不清]数据通过历史TP传输。我们使用Apache流来收集传入的数据。一旦数据在流感记录中收集到，我们将其发送到CAF Apache Kafka进行实时流媒体，以及Splunk进行一些[听不清]查询，比如[听不清]查询，看看数据看起来如何或我们想在数据上看到的任何东西。好，现在让我们看看如何处理数据。我们在Kafka上有实时的数据。所以我们把它作为数据流，处理到Spark EMARS，然后生成格式化的拼花文件。这些文件存储在S3中，这是我们的存储层。
然后我们将这些数据推到S3和Redshift上，我们对它们运行另一个聚合查询到CA，以获得用于仪表板上的业务决策或任何MLR分析的聚合数据。现在，让我们来谈谈，看看我们的红移星团是怎样的。所以我们的集群，我们的活动集群有12个节点集群上面有一个DC到8倍大的音符。我们每天执行超过1000个查询，CPU占用非常大。大部分的部分，但考虑到你看到的数字，我们拥有的数据量，我们使用视频重连接来收集数据，来获得数据，来获得聚合数据。举个例子，如果你想看一部叫做Kali spike着色的电影，客户开始打电话或者我们开始接到很多电话，我们想知道，这些电话来自哪个区域。
现在你可以想象，我有这个填充数据，我有这个遥测数据。然后我有了这个账户数据，我必须把整个东西连接起来，看看问题在哪里。这个，这个让教室一直很忙，但我们五年前就建了这个部分。那时候，没有尖端技术，我们的数据也能做得更好。所以它一直运行得很好，但我们觉得是时候探索新的想法了，找到更好的方法，好吧，我们可以更好地探索市场上的新技术。好吧，让我们看看红移星团的掌声和反对者。它很容易吸收数据和存储，存储中的英语很容易。只需要添加注释。红移在处理复杂的查询方面很好，它很健壮，但是我们在长时间存储数据方面遇到了挑战，因为你必须旋转更多的集群，这很昂贵。
价格是我们开始建立更多集群时的另一个主要概念。现在，计算和存储紧密耦合的事实给我们带来了一些挑战，我们必须为峰值负载和数据提供和支付。随着当天数据集的增加，这变得非常昂贵。然后这些就像静止的簇。所以我们有，每天早上，他们，我们需要一些业务仪表板来填充，他们一整天都在做决定。无论如何，我们都要填充数据。当我们需要管理集群的时候，CPU会激增，我们有一个盒子，我们设置了一个工作负载管理。因此，我们得到了一个查询框，这使得仪表板看起来是空的，团队被困在那里。
所以无论我们要填充什么数据，我们都要与TCP CPU和故事作斗争，先运行哪个查询，给谁更多优先权，等等。所以我们在探索替代方案，我们在寻找各种各样的软材料。那就是我们几年前开始与Databricks合作的时候。好的，到目前为止，这是一个非常进步的关系，我们使用spark 3 Data和Databricks迁移了一些复杂的红移管道，这工作得非常好。我们也可能会把一些EMR工作负载转移到Databricks平台上。bob体育客户端下载我们也在一些查询优化上与Databricks合作。我们，我们，我们，我们，我们，我们，我们，我们接受了一些数据库培训，这非常有用。我们更新了我们的，我们升级到IX平台的新版本的数据，它更安全，可扩展，更易于管理。bob体育客户端下载前面描述过，我们的请求是获得更快、更便宜、更有效的方式来处理分析管道的请求。
当我在Lakehouse建筑幻灯片上看到这张图片时，这对我们的平台很有意义。bob体育客户端下载我们想要付出，想要尝试;和Databricks启用SQL分析，但在我们的工作空间私人预览。为什么不给它一个机会，因为它无论如何在一个私人预览，我们有特权给它一个尝试。为了设置测试和着陆的范围，我们选择了10个最慢的查询，它们是最沉重的查询，我们总是在这个转换中遇到问题，问题就像我们所拥有的所有时间。他们收集了CPU的使用情况，所以我们选择了10个最差的查询，你可以保存下来。我们有红移。我们，我们，我们想，好吧，我们在SQL分析中执行相同的查询，看看它是如何运行的。在生产环境中单独测试查询是非常困难的。
让我来设定期望。由于我们在生产环境中一直有其他查询在运行，模仿相同的环境并尝试它的运行速度，因此花费相同的集合，相同类型的集群是非常昂贵的。这不是苹果对苹果的比较，就是说，当我们运行这些查询时，我们让Vista保持CPU空闲。当我们执行这个查询时，它不是一个苹果对苹果的比较。但我们所能做的最接近的事情是通过在Databricks上运行没有图书的工作来得到一个大致的数字。我们还想在没有转换成任何格式的parquet格式的情况下在数据Databricks上运行它。
我们有很多分配两到三周的在线测试，我们决定使用Databricks内部的金属炉。因为我们的大部分数据都在S3中。我们也有时间限制进行测试。我们需要管理权限来创建数据[听不清]分析端点。对于各种查询，我们在ACS上没有做得很好。我们要让它很快地运行起来，看看一切是如何工作和执行的。第一个任务是转换spark SQL查询，90%的转换像直截了当的。我们必须想出创造性的变通办法来解决剩下的问题。因为运行了notebook作业，所以我们对节点大小有了大致的了解。我们测试了SQL分析，超大的和点。 We have seen benefits of Delta in the past. Plus we wanted to see how it perform this photon. So we tested against a photon as well.
下一张幻灯片，你可以看到细胞。所以看到结果是非常令人惊讶的。我们测试的工作量范围很广。表现非常好的是那些具有聚合和复杂查询的程序。例如，如果你看到第二组，我们已经加入了一个数据集，这个数据集有520亿行对300万行。有很多正则表达式的那个有光子和没有光子都有模差。我们看到的是SQL分析[听不清]预览，在我们运行POC之前，对SQL接口的需求是非常直观和易于使用的。创建终点非常简单。它帮助SQL分析成为一个伟大的前分析师。我们在很大程度上使用了它。 As of now, analytics does not support does not have support for UDS. We did not test ACL’s too much, but it seemed simple enough though.
我集中的目录将是非常好的，我们期待其他的结果，POC，这对我们来说是非常令人兴奋的，但我们也有多个Databricks工作空间。我们的大部分数据都在S3中。我们目前不使用目录，但Databricks似乎也有解决方案。我们称之为统一目录。这个功能看起来很有前途，我们很期待使用它，看看它的表现如何。我们仍处于实验这个湖屋的早期阶段，以及它如何适合我们的需求，但这个项目足以令人兴奋地与大家分享。谢谢你！

苏拉Nesamani

Suraj Nesamani是康卡斯特的首席工程师，专门从事RDK分析。他是RDK仪表盘的创建者和主要开发人员，用于做出业务决策，如固件…
阅读更多

莫莉Nagamuthu

Molly Nagamuthu是Databricks的高级常驻解决方案架构师。她一直在为他们的顶级战略客户解决一些最棘手的大数据问题，在健康和…
阅读更多