减少运营成本
Scribd的任务已经让人们兴奋地阅读。数以百万计的图书可以在他们的在线平台,业务挑战他们试图解决与分析是鼓励阅读没有限制通过提供正确的内容bob体育客户端下载,正确的人。
构建一个有效的推荐引擎的关键是数据,但Scribd团队面临的挑战是无法处理大规模数据集,两个批处理和下游流——迅速。受到严格的本地Hadoop基础设施,它们在性能和维护。增加这一事实问题是小文件由超过70%的数据,导致性能差距和高运营成本。
一旦数据并使其下游,筒仓进一步阻碍了数据团队的生产力。数据工程无法有效地支持数据科学家,和无法共享和重用代码和模型放缓创新。
”随着时间的推移,业务需求已经改变了,”解释R泰勒突堤,Scribd的主任平台工程。bob体育客户端下载“我们现在需要更多的实时数据处理,和更多的支持团队合作提供新的数据产品;我们需要比我们在什么地方更好的东西。”
Scribd团队的第一步是迁移到云端(AWS)利用其弹性的基础设施和开发工具的范围。他们转向砖作为Lakehouse平台来简化数据分析工作流程的管理,大大提高开发速度和跨团队bob体育客户端下载协作。
有弹性的基础设施功能优化的火花集群,三角洲湖三角洲缓存,存储和计算的解耦,小文件的问题,困扰着工程团队是过去的事了。三角洲湖是赋予他们建造performance-optimized关键数据管道,同时支持轻松历史流数据。
“三角洲湖统一我们的流和批处理应用程序,让我们更快地交付最新数据。我们也能够流数据到S3没有任何性能或一致性问题解决了我们的小文件问题,“表达了突堤。
三角洲湖的另一个好处是一个一致的跨组织的数据视图。数据流作为级联表,允许他们所有工作负载从一个表很容易访问和使用。“三角洲湖允许用户查找当前信息或回到过去,“突堤说。“因此,我们的数据客户现在有一个地方去他们的需求,使我们的数据的力量在他们的手中。”
与数据流分析和数据科学团队,现在他们可以通过交互式的协作和共享代码笔记本,极大地加速发展。“砖”的互动笔记本被证明是这样一个杀手特性为我们的开发人员和分析师,他到目前为止,被分享合作通过复制粘贴代码,“突堤。
与一个可伸缩的高效平台,简化基础设施来更好地支持数据分析工作流bob体育客户端下载程,数据在Scribd装备精良团队把他们的产品更上一层楼,更吸引人的经验,推动客户生命周期价值和保留。
此举在AWS砖从他们的遗产Hadoop基础设施已经改变。基础设施管理和数据工程已经大大简化和优化性能。与查询执行由砖运行时,Scribd经历了优化最传统的30 - 50%引发工作负载。“优化率17%,砖会降低我们的AWS基础设施成本太多,它将支付砖平台本身的成本,“突堤。bob体育客户端下载
展望未来,数据在Scribd的团队希望扩大的支持多数据流变化方程如何访问数据,它们是如何工作的,并最终回答更多的问题,将导致更好、更个性化的顾客体验。