客户的故事
迁移到云端可以让阅读不受限制

Scribd客户故事

工业:媒体及娱乐

解决方案:客户生命周期价值客户保留客户细分推荐引擎

bob体育客户端下载平台用例:Lakehouse三角洲湖数据科学机器学习砖的SQLETL

云:AWS

Scribd的使命是改变世界的阅读方式。它的在线图书馆中有超过6000万种图书,专注于利用数据和分析来发现有趣的方式,让人们对阅读产生兴趣。由于传统的Hadoop基础设施过于僵化,无法扩展以满足实时需求,Scribd转向AWS和Delta Lake上的Databricks,以获得更好的性能、弹性和易用性。这种向云的迁移消除了基础设施的复杂性,允许他们的数据团队敏捷地操作,建立快速可靠的数据管道,并轻松地在模型上协作,为客户提供吸引人的体验。

为无限制的阅读构建可伸缩的基础设施

Scribd承担起了让人们对阅读产生兴趣的任务。他们的在线平台上有数百万种书籍,他们试图通过分析来解决的业务挑战是,通过向正确的人提供正确的内容来无bob体育客户端下载限制地鼓励阅读。

构建有效推荐引擎的关键是数据,但Scribd团队面临的挑战是无法为下游快速处理海量数据集(包括批处理和流处理)。由于受到严格的内部部署Hadoop基础设施的限制,他们在大规模的性能和维护方面遇到了困难。更麻烦的是,小文件占了他们数据的70%以上,导致了性能差距和高运营成本。

一旦数据进入下游,竖井进一步阻碍了数据团队的生产力。数据工程无法有效地支持数据科学家,无法共享和重用代码和模型减缓了创新。

Scribd平台工程总监R Tyler Croy解释说:“随着时间的推移,业务的需求已经发生了变化。bob体育客户端下载“我们现在需要更多的实时数据处理,并为团队合作提供更多支持,以交付新的数据产品;我们需要比现有的更好的东西。”

一个快速、协作、易用bob体育客户端下载的统一平台

Scribd团队采取的第一步是转移到云端(AWS),以利用其弹性基础设施和一系列开发工具。他们将Databricks作为他们的Lakehouse平台,以简化数据分析工作流程的管理—bob体育客户端下载—显著提高开发速度和跨团队协作。

有了具有优化Spark集群的弹性基础设施、带Delta Caching的Delta Lake以及计算与存储的解耦,工程团队所面临的小文件问题已经成为过去。Delta Lake是使他们能够构建性能优化的数据管道的关键,这些数据管道可以轻松支持历史数据和流数据。

“Delta Lake统一了我们的流媒体和批处理应用程序,使我们能够更快地交付新数据。我们还能够在没有任何性能或一致性问题的情况下将数据流导入S3,这解决了我们的小文件问题,”Croy表示。

Delta Lake的另一个好处是整个组织对数据的一致视图。数据可以作为级联表流,允许从单个表轻松访问和使用它们的所有工作负载。克罗伊说:“Delta Lake允许我们的用户查询当前信息或回到过去。”“因此,我们的数据客户现在有一个地方可以满足他们的需求,这将我们的数据的力量交到他们手中。”

随着数据流向分析和数据科学团队,他们现在能够通过交互式笔记本进行协作和共享代码,极大地加快了开发速度。“Databricks的交互式笔记本被证明是我们的开发人员和分析师的杀手级功能,他们迄今为止一直通过复制和粘贴共享代码进行合作,”Croy说。

Scribd的数据团队有一个可扩展的高性能平台,简化了基础设施bob体育客户端下载,更好地支持数据分析工作流程,可以将他们的产品提升到一个新的水平,提供更有吸引力的体验,推动客户终身价值和留存率。

在云中获得统一方法的好处

从遗留的Hadoop基础设施转移到AWS上的Databricks已经改变了游戏规则。基础设施管理和数据工程在性能方面得到了极大的简化和优化。在Databricks Runtime支持的查询执行下,Scribd在大多数传统Spark工作负载下优化了30-50%。“在17%的优化率下,Databricks将大大降低AWS的基础设施成本,这足以支付Databricks平台本身的成本,”Croy表示。bob体育客户端下载

展望未来,Scribd的数据团队希望扩展对更多数据流的支持,这将改变他们如何访问数据、如何使用数据的等式,并最终回答更多的问题,为客户带来更好、更个性化的体验。

  • 30 - 50%
    降低运营成本

故事背后:数据团队效应

来认识一下Scribd背后的数据团队


与团队见面

从本地基础设施迁移到AWS上的Databricks是释放我们数据的可能性并使我们的数据团队蓬勃发展的关键。”

——R Tyler Croy (Scribd平台工程总监bob体育客户端下载

相关内容

博客:通过抛弃数据中心来加速开发人员
2020年Spark + AI峰会技术讲座