在康卡斯特SQL分析驱动遥测分析

2021年5月28日上午10:30 (PT)

下载幻灯片

康卡斯特是通信的主要提供者之一,娱乐,和有线电视的产品和服务。它的核心是康卡斯特RDK提供遥测的支柱产业。RDK(参考设计工具包)预捆绑为一个完整的家平台开源固件覆盖视频、宽带和物联网设备。bob体育客户端下载在康卡斯特RDK团队分析pb的数据,从7000万年开始每15分钟收集一次设备(视频和宽带和物联网设备)安装在客户的家园。他们跑ETL和聚合管道和发布分析仪表盘每天减少客户电话和固件推出。分析也用于计算WIFI幸福指数是一个关键KPI康卡斯特的客户体验。

此外,RDK团队也通过分析RDK固件版本跟踪质量。SQL分析允许客户操作lakehouse架构,提供了数据仓库的性能数据湖经济学长达4 x SQL工作负载更好的价格/性能比传统的云数据仓库。

我们报告的结果与SQL“测试和学习”分析和三角洲引擎,我们与砖团队合作工作。bob体育外网下载提出了一种快速演示介绍SQL native interface,我们面对的挑战迁移,执行的结果和我们的大规模productionizing这个旅程。

在这个会话表:
苏拉Nesamani,开发人员,康卡斯特
莫莉Nagamuthu,建筑师,砖

成绩单

莫莉Nagamuthu:嘿,每一个人,谢谢你的到来。欢迎来到一个关于SQL分析的报告。今天的议程,我们将为SQL设置上下文分析,简要展望Lakehouse平台,它是什么,为什么我们需要SQL分析适合的地方。bob体育客户端下载我们还将深入了解一下SQL分析。我的公司今天的主持人,苏拉Nesamani,会用遥测用例的所有细节,我们测试它。在我们潜水在一次简短的介绍我自己,我的名字叫莫莉Nagamuthu。我是一个居民砖的解决方案架构师。在这个角色,我神奇的关键战略客户一起工作的机会,帮助他们在最艰难的通过利用我们的砖平台数据和人工智能实现。bob体育客户端下载我有20多年的产品开发经验,工程,和专业服务。这是一个有益的经验在不同行业在这些美好的公司,我有机会。 I’ve been with Databricks for about two years and I’m loving it.
让我们开始吧。Datebricks的愿景是使数据驱动的创新企业。为了使它所有可能的,我们介绍了Lakehouse平台。bob体育客户端下载Lakehouse是一个砖”的概念引入企业更容易结合最好的数据仓库和数据湖泊到一个单一的平台。bob体育客户端下载我们为什么需要这个?因为尽管这个领域的进步,大多数企业仍然在数据。如果你需要建立一个端到端数据驱动的企业,那么你需要建立四个不同的堆栈来处理所有的数据显示需求。这是数据工程、数据仓库、实时摄取和数据科学和毫升。通常情况下,因为它代表今天,他们是非常不同的技术和一般不很好地协同工作。这样做的原因是,正如您所看到的,有很多工具可用。
唯一的问题是,他们断开连接。在某些情况下,您必须处理各种专有格式。当你添加角色具有不同的一套技能,我们现在讨论的孤立的数据团队,不有效沟通结果,生产力下降,核心的问题是技术栈是建立和解决这些问题,砖”提供了一个完整的Lakehouse平台。bob体育客户端下载在云在所有云。所以它是多重云,与所有不同的原生云紧密集成的能力。您的数据可以保持在一个开放的数据。
砖与三角洲提供数据管理和治理,确保安全、可靠性和性能。它支持所有工作负载在一个平台从数据工程,BI数据科学和实时应用程序bob体育客户端下载。保持所有的工作在一个平台,简化了数据的工作团队和允许简单的协作。bob体育客户端下载现在让我们专注于砖SQL的分析。
到目前为止在这次旅行我们5000 +的客户。和最初的创造者火花三角洲动物流,我们收集很多企业在每一个行业的工作经验。我们已经建立了一个良好记录数据摄取ETL处理和机器学习。唯一的差距需要过程,是提供一个健壮的BI和SQL机制分析。
这里是最新的除了我们的工具套件,砖的SQL分析。它提供了一个回家SQL分析师在砖和能够查询你的湖的房子,有更好的价格,性能,简化发现和分享的新见解,连接到熟悉的工具表或权力BI和简化管理和治理。除了本地实质和可视化工具,SQL分析提供支持所有现有的BI应用程序。是一个非常广泛的BI工具,包括画面和BI。您可以连接SQL分析端点可靠数据和快速查询性能。
现在让我们看看一些广泛使用的情况下,支持。他们主要是三倍。第一个是最大化现有投资通过连接您的首选BI工具如表或权力BI数据使用SQL湖分析端点,连接器是完全重新设计和优化,以确保快速性能,低延迟和高用户并发性数据。
第二个响应业务需求更快的与自我一定不好过体验设计的分析师在你的组织中。砖SQL的分析提供了一个简单的和安全的数据访问。你有能力创建或重用续集可视化查询和快速模型和迭代和仪表板适合最好的业务。最后但不是最少,你可以建立一个富裕和自定义数据增强自己的组织或客户申请。现在我想指出的是,这里的关键是,你做的所有的这些数据湖上,而不是将数据移动到任何工具来得到这些见解。数据总是可用的数据。
现在让我们看看它是如何工作的,有哪些组件,使这一切成为可能。我们首先需要确保策划湖在一个开放的数据格式的数据。它确实…不管它是结构化或非结构化数据。湖变成了基本块的数据架构。当然,我们需要一个本地续集接口查询整个数据湖和能够可视化这些结果。如果我们把现有的BI工具,那么我们需要优化的连接器来连接你的数据。这些是由砖。第二大的是电脑本身。如果你有使用砖在过去,你知道是多么容易设置计算通过创建和配置您的集群,但是SQL分析则更进一步,续集端点和抽象很多复杂性和使它更简单。
最重要的一部分,这是一个强大的、完全重写矢量化续集引擎。与所有你能得到的性能提升。看到所有这些砖的工作空间,让我们进入一个快速演示。澄清一下,这不是用例的演示,我们将礼物,这是一个延续之前的幻灯片看到我们刚才讨论的所有组件,看看它们看起来像在砖工作区。让我们继续,登录一个砖的工作区。一旦你登录你的砖工作空间,你会看到你的常规数据工程工作负载和集群和一切;你习惯的相同。你也可以看到你的ML端到端管道,你所有的ML模型和,和东西。如果你,如果续集分析是安装在工作区,然后如果你访问,你可以从这里访问它。
让我们点击。一旦我们拥有它,这是秘密分析主屏幕。所以让我们看看探索性数据分析用例,我们可以创建一个查询或仪表板或警报。一旦我们点击创建查询,你看到这里的SQL编辑器,编辑器会自动启用自动填充。所以当你,当你输入,你看到什么选项可用,然后如果你想禁用它,你可以,你可以禁用这个点击这里,您可以创建底部和矩尺很容易如果你,如果你需要。这就是数据浏览器的所有数据库访问和访问可以控制很容易使用——使用大语句。你可以看到表的模式,和其他数据库访问和一切。
这里是端点。我们将讨论这一点。这是SQL的主要计算分析。让我们看看,让我们加载查询,我们已经有了。我们只是想探索tpc数据库。只是,我只是做——找到一个简单的查询看看呼叫中心。我今年继续执行。不会占用太多的时间,是的,我们有。和我们可以很容易增加可视化的结果。你可以看看——你可以选择轴轴,任何事,任何聚合列,你可以,你可以创造任何你想要的。 We just fired a very simple query, so I’m just going to use the simplest visualization possible on this. I’m just looking at how many employees are distributed for- per call center for each of these cities.
一旦你有一个可视化的查询,您可以很容易地添加到仪表板添加,添加可视化的仪表板。现在让我们看看我们如何能把这些仪表板。所以我们有…我们有一个仪表板查询补充说。我们有另一个查询,我们只是仪表板添加到仪表板,这只是一个查询的聚合,我刚刚跑。接下来,让我们,也可以为这些查询,设置警报条件。这里我有,我有一个警报设置和聚合,大于一百万美元,我可以在这里添加任意数量的用户的电子邮件警报。所以很容易设置。如果你有仪表板在定期刷新刷新,我不要,我没有设置在刷新展示此功能。
现在,一旦你在刷新时间表,然后你知道,状态将被触发的基础上,根据发生在仪表板的刷新。所以这只是看到我们如何探索,使用续集分析探索。现在让我们看看端点,可用。结束点,有两个端点。正如我前面提到的,这些都是t恤大小,大中型,创建一个想法很简单。没有很多。你要做的只是名字,t恤端点的大小,数量的分钟的活动自动停止负载平衡最小值和最大值,然后我们是否需要光子,光子需要矢量化查询引擎,我们只是谈论。当然,现场实例政策,等等。
现在,一旦我们有,一旦我们有端点,让我们看一下连接细节。也有这个URL。这是网址,你可以用它来连接它从表或权力BI BI工具,你需要。现在,终点也有,还有一个SQL API端点。您可以使用API端点来触发,自动化的端点和执行查询,从您的应用程序。另一些指标来监测指标,,数量的查询,查询和运行的峰-峰的峰值急性查询,在这里我们没有很多它不是,它是一个共享共享集群;这不仅仅是我们只是跑的负载。和它也有终点使用集群的数量。这不是不止一个,有这将意味着四和max之一,但它看起来像它只是使用一个集群。
这些是一些,一些,这些都是他们中的一些人,一些功能,我们只讨论了SQL - SQL分析和整个峰会,讨论这些,我们不会深入,现在因为我们依然,我们必须讨论的用例,我们测试它。并且有许多的谈判,做一个深入的这些组件。所以,请看看这些。这是集群级别映射的t恤的端点。
让我们来看看一些额外的资源。有很多砖上的额外的可用资源的网站。我们也可以加速你的BI用例砖的Lakehouse平台与我们的SQL分析,MVP客户成功发行,这是Q2。bob体育客户端下载对于每一个组件,我提到,我只是表明,他们有很多的相关谈判中发生的峰会。所以我们将,如果你错过了这些,那将是我们的虚拟平台上可用,我认为对于一个月左右。bob体育客户端下载现在告诉我们关于我们在康卡斯特遥测用例,我交给公司今天的主持人,苏拉Nesamani,苏拉之后。谢谢每一个人。

确定Nesamani:谢谢莫莉。大家好。谢谢你在这里。在我开始之前,让我来介绍一下我自己。我的名字叫苏拉Nesamani。我在康卡斯特首席工程师为倡导工作。我有15年的工程经验,主要从事RDK遥测和大数据分析。我领导一个团队的分析人士和工程师负责建立RDK平台,分析平台。bob体育客户端下载我专攻RDK遥测分析为什么他们发生指数pod推荐引擎,当然处理pb级的标量数据集。现在让我们谈谈RDK罗格斯血统(听不清)所以RDK代表装备,和是一个开源格式与任何预先打包设备,是家里的一部分,康卡斯特(听不清)。bob下载地址 So be it a video broadband device or IOT devices. To give you an example, if you’re on a phone with a service tech, because you set your set up box or your wifi gateway- gateway is not working, and they are sending a radio signal to a center box.
这是电话,他们在的地方,我们互动。在早期,康卡斯特创造了这个规范,但是现在它是开源的,在媒体行业很受欢迎,以及在遥测行业,几乎所有的设备已经RDK,有这个能力做遥bob下载地址测。我们有接近1700万设备和安装到北美。我们做很多ETL聚合RDK设备上的遥测数据。我们,我们开发仪表板的数据,用于商业理由,这除了制定和推出前者。现在让我们来谈谈RDK遥测和数据管道架构。任何设备,预构建,RTK固件叫做——我们称之为设备的一篇文章。我们有接近1700万的设备,这是分布在全国各地。我们有接近每天24 tb的数据,我们收集的这些设备。
这个词说,遥测设备本身只是所收集的数据。我指示装置,遥测事件,每15分钟,云中的数据被收集起来。现在让我们看看云中的数据被收集。RDK遥测数据传输(听不清)通过历史TP。我们使用Apache来收集传入的数据流。一旦流感注意收集数据,我们寄给CAF Apache卡夫卡对实时流,以及Splunk做一些(听不清)查询,(听不清)查询,看看数据看起来或任何我们希望看到的数据。好,现在让我们看看我们如何处理数据。我们有这个数据实时卡夫卡。我们流数据,我们处理它引发EMARS,生成格式化的镶花文件。这些文件都存储在S3,我们的存储层。
然后我们按这个数据到S3和红移,我们运行另一个聚合查询,CA,得到聚合数据用于业务仪表板或任何高决策分析。现在,让我们说话,让我们来看看我们的红移集群的样子。所以我们的集群,活跃集群是12节点集群的DC - 8 X大笔记。我们一天超过一千执行查询,CPU使用率是非常重。大多数的一部分,但考虑到你看到有数量,我们与我们的数据量,和我们使用视频重联接来收集数据,,获得数据,聚合数据。所以举个例子,如果你想看电影,叫卡莉飙升着色,,,客户开始打电话或我们得到,我们得到,我们开始收到很多电话和我们想要看到的,好吧,电话来自哪个区域或地区。
现在你可以想象,我,我有这个填充数据遥测数据。然后我这个帐户数据和加入整件事,看问题是撒谎。这,这使教室里忙碌,总是这样,但五年前我们构建这部分。和那些日子尖端技术,我们可以做最好的没有我们的数据。它工作得很好,但这是,我们好像是时候探索新的想法和看到更好的方式去看,好吧,如何更好的我们可以,我们可以探索新技术的市场。好吧,让我们来看看红移的掌声和缺点集群。它的,它很容易在摄取数据和存储,存储的英语很容易。只是添加笔记。红移是很好的处理复杂的查询,这是健壮的,但我们在长时间存储数据的挑战,因为这样你就加快集群,这是昂贵的。
而且价格是另一个主要概念当我们开始旋转的集群。现在,计算和存储的紧密耦合引发了一些挑战,我们有提供和支付高峰负荷和数据。这就是昂贵的数据集在那一天。然后这就像一个静态集群,坐在那里。所以我们有,每天早上,他们,我们需要一些业务仪表板填充,得到,他们决定,一整天。所以我,我们必须有数据填充。当我们有,我们需要管理集群,CPU峰值,可能,我们得到了一个盒子,我们有一个工作负载管理集。我们得到什么,我们得到查询一个盒子,,使仪表板看起来空和团队被困。
所以不管我们要填充这些数据,我们反对这个TCP CPU和故事和查询运行第一,给更偏好,等等。所以我们探索选择和我们看繁多,各种其他软的东西。这是当我们开始使用砖几年前。好吧,这是一个非常进步的关系到目前为止,我们迁移的一些复杂的红移管道使用火花3数据和砖,它工作得很好。我们也可能会得到一些EMR砖平台的工作负载。bob体育客户端下载我们也使用砖在某些查询的优化。,我们,我们,我们,我们,我们,我们把一些数据库的培训,这是非常有用的。我们更新了我们的,我们也升级到新版本的IX的数据平台,更安全,可伸缩的,和更简单的管理。bob体育客户端下载前面所描述的,我们的要求是一个请求得到更快,更便宜,更有效的方法来处理分析管道是回答。
当我看到这张照片在Lakehouse架构幻灯片,这对我们的平台做了一个很有意义的。bob体育客户端下载我们想给,尝试;私人预览和砖启用SQL的分析,但是我们的工作空间。为什么不试一试,因为它是不管怎样在一个私人的预览,我们荣幸试一试。设置测试的范围和土地,我们这么做,我们把10慢查询,他们最重的查询,我们总是进入转变的问题,和像超时的问题。他们拿起CPU使用所以我们十把最差的查询您可以保存。我们有红移。我们,我们,当我们想,好吧,我们在SQL执行相同的查询分析和看看它是怎么回事。很困难,很难在生产环境中测试单独查询。
让我设置的期望。既然我们已经在生产环境中运行的其他查询,模仿相同的环境和它运行速度,它是非常昂贵的花相同,相同的集群。所以它不是一个苹果苹果比较,说,当我们运行这些查询,我们,我们把Vista,保持CPU空闲。当我们执行这个查询,这不是一个苹果和苹果的比较。但是最接近我们,我们能做的就是一般的球场数量通过运行砖上没有书工作。我们也想要运行的比较数据砖没有拼花格式转换成任何格式。
我们有很多分配两到三周的在线测试,我们决定使用砖内部金属的炉子。我们的大多数数据在S3中。我们也有时间限制为测试出来。我们需要管理员权限来创建数据(听不清)分析端点。我们没有太多在ACS各种查询。我们要让它运行非常快,看看一切工作和执行。第一个任务是把火花SQL查询,90比例的转换简单。我们必须想出创造性的解决方法。我们有一个大致的节点上尺寸,因为我们跑笔记本工作。我们测试了SQL分析,额外的大型和点。 We have seen benefits of Delta in the past. Plus we wanted to see how it perform this photon. So we tested against a photon as well.
所以下张那里,你可以看到细胞。所以很神奇的结果。我们测试范围广泛的工作负载。那些表现很好的聚合和复杂的查询。举个例子,如果你看到两个,我们已经加入了一个数据集,如520亿行和300万行。与很多正则表达式和一个模块化的差异,或没有光子。和观察,我们看到的是SQL分析(听不清)当我们预览,这不是当我们跑POC之前,需要SQL接口非常直观,易于使用。创建终点非常简化。它帮助SQL分析,很大的分析师。我们使用它在很大程度上。 As of now, analytics does not support does not have support for UDS. We did not test ACL’s too much, but it seemed simple enough though.
我集中的目录将会很好的和我们期待,结果,POC,这对我们很激动人心,但我们也有多个砖的工作空间,与我们合作。我们的大部分数据是在S3中。我们目前不使用目录,但它看起来像砖有解决方案。我们叫它统一目录。这个特性,它看起来非常有前途的技术,我们期待着使用它,看看它是怎么回事。我们仍在试验的早期阶段Lakehouse以及它对我们的需求,但是这个项目是令人兴奋的足够的与大家分享。谢谢你!

苏拉Nesamani

苏拉Nesamani是康卡斯特的主要工程师专业RDK分析。他是造物主的主要开发者RDK仪表板等业务决策权力使用固件…
阅读更多

莫莉Nagamuthu

莫莉Nagamuthu砖高级居民解决方案架构师。她一直在顶级战略客户解决一些棘手的大数据问题规模在Healthca……
阅读更多