客户体验在迪斯尼+通过数据透视图

2021年5月26日,上午11:30 (PT)

下载幻灯片

迪斯尼+迅速扩展提供个性化和无缝体验数以千万计的客户。这种体验是由一个强大的数据平台,摄食,事件的过程和表面数十亿美元每小时使用三角洲湖,砖,bob体育客户端下载AWS技术。产生的数据平台是由众多的服务包括一个推荐引擎用于个bob体育客户端下载性化体验,优化看经验包括组观察,预防欺诈和滥用。

在这个会话中,您将学习如何迪斯尼+建造这些功能,架构,技术、设计原则和技术细节,使其成为可能。

在这个会话表:
瑞卡Bachwani、导演、迪士尼+
导演马丁•Zapletal迪斯尼+

成绩单

马丁Zapletal:大家好。谢谢你来我们的演讲。我的名字是马丁Zapletal和我的工程总监迪斯尼流。

瑞卡Bachwani:嗨。我的名字是瑞卡。我在迪斯尼首席工程师流。今天,马丁和我要谈谈我们如何优化迪斯尼+客户体验从数据的角度来看。
所以你知道,迪士尼开始作为一个流媒体服务仅仅几年前。然而,它已经以非常快的速度超过一亿用户。此外,迪斯尼流,下面是一群多样化的服务,比如ESPN +,迪斯尼和其他人,和内容跨越生活电视,运动,按次计费的事件和视频点播。为了共同主持这异构内容,我们投资建设一个自助服务平台,包括图书馆、api和工具,而不是仅仅建筑管道和服务以松散耦合的方式。bob体育客户端下载这个平台,bob体育客户端下载我们已经投资提供了一个低延迟的解决方案和图像pb的数据,进一步基于权力下游分析和学习解决方案,我们将讨论在演讲。
让我从两个用例,我们已经在使用这种方法。第一个是我认为你都熟悉给你支持的个性化主页推荐引擎。第二,可能不是可见的,主要存在于后端,当用户点击播放,怎么这些请求路由吗?
让我们如何解决交通路由问题。我们通过优化服务水平指标,如利用延迟、用户级的特点,就像他们来自的设备,他们的带宽约束是什么,哪些内容是举办的CDN路由。
最后,第三个用例非常不同于这两个,是欺诈检测和预防。我们想要做的,在不影响用户。现在,这三个用例可能听起来像机器学习,他们可以由数据和机器学习。然而,他们有不同的特点。所以当我们走过剩下的演讲中,我们将介绍一些决策的影响能够支持这些异构的用例。
对于支持这些用例,我们的主要目标或目标是什么,我们将为我们当我们开始构建平台?bob体育客户端下载第一个目标是我们想给你一个个性化的体验,我们希望我们所有的用户规模,不论他们来自行星的一部分,和所有我们的不同内容的目录。
第二个是,我们得到更多的用户遍布地球和我们的内容变得越来越多样化,我们希望能够支持多种设备,我们希望能够做这个无缝跨网络和区域。最后,我们的最终目标,我已经说了,是为你提供一个无缝的观看体验跨所有平台无论你来自哪里,你流什么设备,和你流什么内容?bob体育客户端下载
走你通过这次的演讲,我们将专注于两个用例。第一个是交通路由,我已经描述。第二个是个性化的方面。我们如何做呢?记住这两个用例描述的主要目标,我们去了我们的方法是什么。
就像我说的,我们的目标是建立一个自助服务平台。bob体育客户端下载打赌,我们是平台应该能够摄取,在尺度变换,验证和保存数据。bob体育客户端下载和它通过捕获所有相关的交互,用户与我们的服务交互还是不同microservices端相互作用。我们想要捕捉所有这些在一个有意义的时尚和时尚,对于下游分析非常有用。
最后,我们想要一个条款,不断迭代,提高平台的产品。bob体育客户端下载再一次,这就是数据的想法出现在我脑海里。所以第二个关键目标,或者第二个打赌,我们把这种方法嵌入学习数据和情报的DNA。所以这意味着我们日志,就像我说的,日志的交互,我们利用过去的行为和交通模式从基于这些数据,来不断改善经验和提高我们的基础设施的效率。我们又在规模和所有设备、地理位置和网络约束,我们必须坚持。
所以,我将其移交给马丁,他可以给你一个概述什么是架构,深入了解我们的平台。bob体育客户端下载

马丁Zapletal:谢谢你,瑞卡。这是在一个非常高的层面,架构和我们如何看待我们的数据和机器学习生态系统。所以左边,我们有我们的用户和设备,数据生产者和发送数据通过这个边缘的生态系统,它负责与设备的连接和传输数据流数据平台。bob体育客户端下载我们的服务是另一个重要的生产数据。他们公开数据集在流数据平台生态系统可以处理的数据或订阅。bob体育客户端下载这些数据也经常摄取到我们湖进行进一步的批处理和分析数据。
这里的分析和机器学习平台可以利用批处理和构建机器学习用例流处理。bob体育客户端下载最后,在最底部,我们有我们的实验框架,该框架允许我们建立实验和实验特性。
在这个演讲中,我们将关注这部分的生态系统。我想强调两个主要概念,我们将谈谈在其余的演示。首先,平台团队构建图书馆服务,本质上是一个bob体育客户端下载自助服务工具、自动化、集成和分散式生态系统为一个统一的处理数据。它使组织,所以经常其他团队,利用他们需要解决他们的用例和建立自己的数据,并分析和机器学习解决方案。
第二件事是,因为我们构建的生态系统,它允许我们构建数据解决方案在不同的层,可能使用不同的技术和通常有不同的SLOs。所以团队可以利用批处理和离线分析。他们在网上可以利用nearline和用例。所以使用流媒体甚至在服务中使用这些数据用例来处理用户请求和业务用例。
所以数据生态系统不仅可以让我们构建的分析,但还操作用例,影响客户体验。而且通常都有。所以分析和操作之间的界线,而且数据和服务之间有时有点模糊,这是故意的。
让我们谈谈我们如何实现我们的生态系统。这是一个例子。不存在于我们的生态系统的管道,但它是足够接近能够演示的概念。其次,整个生态系统,支持迪士尼+和类似的解决方案是比这更大,有更多的生产商,更多的消费者和用户数据。
就在一个非常高的层面,在左边,我们的设备产生的数据。和顶部左边,我们有服务,再次被生产商的数据。有一次,我们一起加入这两个流。我们做一些浓缩和路由和过滤,然后发送数据下游用户利用。这两个亚马逊运动数据流的情况下,其中一个是用于数据验证失败,另一个用于数据通过验证。然后我们使用砖和火花来摄取数据到数据湖,这里由Amazon S3。
在最底部,我们有两个其他管道实时处理数据。一个使用砖,另一个为Apache Flink亚马逊运动数据分析,应用实时聚合和分析,然后使这一进程的结果可用于下游消费者使用或想象。
的第一件事,使数据可用整个组织自动化数据管理。,包括管理模式、演变,质量,管理,访问控制,可发现性、安全、隐私血统,和所有这些其他属性与管理相关的数据。我们需要应用相同的管理在整个生态系统,从生产者到消费者。所以从生产者到我们的数据。特别是这是非常重要的在我们的实时和业务用例,所以每个用例没有实时处理数据问题,这使得它很有挑战性。
所以我们构建自己的解决方案,称为模式注册,支持所有这些属性,我只是谈论,也与我们的其他工具在数据集成的生态系统。它提供了一个集中的视图的数据和质量定义,然后分享给所有的用户数据,生产者和消费者和其他用户。
我们设计的方式,是单独的声明性的定义从执行预期的数据,所以执行这些定义的后续行动和对任何潜在的问题我们该怎么做?所以我们定义的质量检查。可以在不同的地方执行定义的质量检查管道以及不同阶段的开发生命周期,以满足所需的SLOs为每个用例。
举个例子,我们生成功能学者在编译时代码捕获错误或在开发过程中。我们再提供api来验证数据,当生产数据和自动化QA测试期间。我们也有与砖的集成和火花检查期间摄入(听不清)或数据在数据的处理湖吗?所以我们保持正确的格式标准质量和所有其他的后卫rails整个生态系统,这使我们能够使其他球队开始构建数据解决方案和解决方案利用这些工具和机器学习和分析工具。我们允许他们这样做很容易,能够快速迭代和专注于他们的特定的用例。
我们如何思考平台服务的另一个例子是提供自助服务模式。bob体育客户端下载团队总是允许构建自己的解决方案,在理想的情况下使用sdk工具和服务,我只是谈论,但也有一些重复的模式,和团队可以使用它们使用的配置和部署它们。所以在这个例子中,这两个蓝色的盒子本质上是一样的。从流的创建一个视图或创建一个屏幕快照,这是一个常见的例子。在这种情况下,我们摄取亚马逊运动数据流到亚马逊使用砖三。然后我们有另一个砖的工作流程数据和创建格式良好的三角洲表,然后使用作为我们的基础数据湖下游(听不清)。
的原因,我们可以这样做是因为我们前面提到的注册表的模式。我们知道数据的形状。我们知道的期望,如质量,我们预期的数据,我们需要应用的检查。我们也有生成的代码,使我们能够有效格式之间的转换,比如JSON或Protobuf行业湖三角洲格式的数据。其次,因为三角洲同时支持流媒体的和流媒体来源,我们可以继续流下游如果我们需要根据用例及其SLOs。当讨论平台,特别是支持迪士尼+操作用例,我们需bob体育客户端下载要同样的酒吧服务质量,我们其他的后端服务。所以我们需要构建工具,解决问题的可观察性和可靠性和韧性,弹性,和所有那些携带或成本效率,满足我们的其他服务一样的酒吧,能够支持这些大规模业务用例。
这只是一个例子,一个吞吐量在同一个流在两个地理区域。可以看到,有一次,一个流的流量降到零,另一拿起交通流,最终稳定的东西,回到正常,我们继续处理数据。这是因为我们失去了我们的一个地区,因为有一个区域故障转移。幸运的是在这种情况下,这是我们的混乱测试计划的一部分。我们希望这样的事情发生。原因我们想让这发生的大多数获得信心在我们的解决方案和信心,我们可以保持rso如可靠传递,事件的顺序,延迟或数据可用性和及时性,因为它我们的一些用例之间的不同,但是我们的许多用例需要一些保证。
所以我们建立了一个数量的工具,使这一切成为可能,再一次,方便团队构建解决方案,利用这些工具,如部署管理和自动化工具称为FENOs或AB或蓝绿色部署流媒体解决方案,最大限度地减少停机时间和延迟和新版本的部署或一个自动伸缩功能的工具使用结构化,火花结构化流中心使用可用的指标,然后使用砖API上下集群规模。这只是一些例子,但是肯定有许多更多。最后,让我们谈谈技术堆栈。所以我们使用亚马逊运动数据流,AWS MSK的流媒体解决方案的骨干和AWS S3对于很多我们的批处理。然后在他们之上,AWS运动数据分析等一系列技术操作眨眼,AWSλ和AWS客户机库。
但我们也严重依赖砖流和批处理。我们使用其他技术如气流,JupyterHub和许多其他人一样,但重要的是,在我们建立这个生态系统的工具流数据平台和机器学习平台和实验框架,提供一个障碍层,让我们的服务团队来构建自己的解决方案,可能利用数据和分析,而且我们的数据团队构建自己的数据处理解决方案,你和每个人都利用分析和机器学习解决方案,再根据需要不同的层。bob体育客户端下载所以,我会把它交给女性走路通过机器学习平台的细节和用例如何映射到这个平台上。bob体育客户端下载

瑞卡Bachwani:感谢马丁零售平台和令人敬畏的描述工具和服务,它提供了。bob体育客户端下载我就简要讨论了ML平台的一面。bob体育客户端下载作为毫升平台的一部分,正如马丁提到的bob体育客户端下载,它更抽象的底层技术如砖,JupyterHub, EMR,所以作为毫升平台的一部分,我们希望提供的是简化毫升的开发和部署。所以我们严重依赖砖笔记本和通过Kinostart我们建立了内部实际调度工作。此外,我们利用定制的码头工人图片,内置包,毫升包,和特定的版本,并提供他们作为上游码头工人形象,这样更容易分析和毫升。此外,使用砖和EMR,我们正试图建立一个沙箱环境中,人可以测试他们的ML管道他们准备部署在生产之前所有的生产数据,所以我们有信心当我们部署模型,是否在流媒体平台上或在我们rec引擎服务。bob体育客户端下载
所以接下来我将深入研究实际的分析和ML的用例。用例保持不变,但我会进入更深层次的细节我们什么样的模型。如何一个典型管道样子等等?让我们回到用例。我知道你听到这些用例在整个演讲中,但我会潜水深入一点。首先我提到交通路由,但交通路由之前,我们必须解决和理解并善于预测我们的季节性和交通趋势。实现,我们开始通过一些简单的统计模型和时间序列分析,最终变得更好,他们准确地预测喜欢准确预测需求。当我说需求,需求是基于如果我们生活事件而言,如果你有更高的,如果它是黄金时间供人观赏视频点播,类似这样的事情。
所以他们考虑,我们正在改善我们的需求预测。除了使用时间序列分析和需求预测,我们也尝试利用用户首选项。所以网络关联或CDN亲和力的一个方面,但是我们要把设备的类型,我们的用户流。例如,如果用户是流从一个Android设备在某些农村或偏远地区,为高分辨率的内容或服务以最高的速度可能会损害这种经历,因为它会耗尽电池快之类的东西。所以我们要考虑设备原始的请求,请求的地理位置来了,这样我们才能最好的优化用户体验。除了优化用户体验,他们也看着有效地这样做。
所以,我们网站的目标之一是高运营效率。我所说的运营效率是我们考虑最优分配资源。例如,如果有人从4 k电视流媒体直播事件流相同的事件与另一个人,说一个移动设备和第三人做视频点播。如果我们适当地利用分析和机器学习,我们还可以优化所有这些资源和高效的基础设施。所以这些都是我们考虑的事情,我们看服务特点等内容的元数据,网络,和带宽,用户特点,预测需求和季节性模式。我们把所有的为你提供最好的体验。现在我很多我们可以使用什么样的毫升、如何把这些东西,但这些都是每个不同的管道。
以及一个峰会,让我谈谈我们如何将这些事情联系在一起。但在那之前,这就是一个典型的管道。所以甚至有数据的流数据。现在,有两个部分可以按照这个数据。一个。我认为马丁更详细地描述了这些,但是把它以抽象的方式。就改变了。一个模式功能,最终在我们的数据。另一件事是如果模型需要一些实时特性或实时数据,然后一些实时数据也进入。下一步的特征工程,结合批处理数据,以及实时数据和计算一组特性,在生产中为我们的模型是必要的。 The blue box of machine learning that you see, it sort of represents an Abstract ML platform here, that on time ML platform where there might be heuristics and metrics that are computed a time series analysis for sediment forecasting, or sydian routing some predictors and classifiers for our fraud and abuse prevention.
这里我没有提到的一件事是一个推荐引擎。所以这些特性可用于任何模型的运行时,它可以得分的传入请求和输出决定各自的服务。现在,每个服务授权使用这些模型的输出方式的缺陷,但我们要做的是记录所有的决策服务做成我们的数据。和一些带回来,再次出现的流数据。所以的这是一个连续循环,原因我们能够做一些平台的体系结构决策,马丁详细描述,我们有。bob体育客户端下载所以我希望这为你提供了一个很好的概述我们的ML生态系统以及它的好处从底层平台架构,我们选择。bob体育客户端下载
所以,我会总结和复习,所以我们讨论如何优化大规模个性化的体验。关键打赌,我们为了实现个性化的体验是使数据的一种不可或缺的我们的生态系统。除了数据,我们正在寻找有一个连续循环的反馈来保持这个迭代,持续改进过程。而且这一切都不可能实现图书馆的自助服务平台组成,sdk服务和自动化。bob体育客户端下载
我们专注于解决方案支持和自身服务而不仅仅是建筑管道并将它们连接到一个运行时。最后,我认为这种快速规模出现了我们从一个新的流媒体服务的庞大的用户基础,不可能如果我们不使用大量的开源技术和强大的自动售货伙伴像数据砖提供了我们管理解决方案帮助这种快速发展。bob下载地址bob体育外网下载所以,谢谢你的时间。谢谢你花时间来听我们的。我们可以回答任何问题你可能有。我们像往常一样,我们总是招聘。所以请访问disneytech.com查看是否有任何角色和你说话,或者如果你有任何问题,随时联系,马丁和我。最后,你的反馈对我们非常重要,所以请不要忘记率和评论我们的会话和分享任何你对我们的反馈。

瑞卡Bachwani

女性是迪士尼首席工程师+机器学习技术,安全性和分布式系统。她领导驱动毫升的ML工程团队战略服务和该文……
阅读更多

马丁Zapletal

马丁是一个工程主任迪士尼+团队。马丁是负责公司的数据平台战略和实时决策能力,利用他的技术领导一个……bob体育客户端下载
阅读更多