扎克马斯格雷夫

Yelp首席工程师

    Zach Musgrave是Yelp计量基础设施团队的首席工程师,该团队为Yelp的工程和运营团队提供仪器仪表、监控、警报和数据平台。bob体育客户端下载从研究生院开始,Zach就一直致力于性能优化:从单个系统和代码路径到数千台机器的集群范围内的服务性能。在Yelp,他还从事过大规模部署基础设施、新型缓存层、Hadoop操作和密钥管理。以前,扎克是英语专业的学生。

    过去的会议

    2019年峰会 云存储春季大扫除:寻宝

    2019年4月24日下午05:00 PT

    试图决定保留、归档或删除哪些数据?Yelp使用Spark和Parquet从数据访问中提取真实的、可操作的业务价值。通过在API响应级别获得对数据的关键洞察,我们可以围绕正确的规模、安全审计和来源启动新的计划。在过去的十年中,Yelp在Amazon S3中积累了pb级的数据。对他们进行分类——并确定他们对组织的价值——就像逛跳蚤市场一样。当然,有些库存是无价的,但大多数库存在新的时候几乎没有价值,现在也没有价值。保留是昂贵的,审计是不可能的,分析比偷《独立宣言》还难。偶然间,我们发现了Yelp最昂贵的数据存档的访问日志。

    我们了解到没有人分析过它们,因为bucket包含数百万个小对象。由于S3的行为,这使得Spark的处理变得困难:通常情况下,Spark驱动程序在这种情况下会耗尽内存。当我们继续寻找的时候,我们创造了一个新颖的解决方案,从一个Jupyter笔记本开始。通过首先处理键名-而不是使用Spark的HDFS抽象-我们用rdd转换数据,将其schemated为数据框架,并将其转换为Apache Parquet。然后,我们将其保存在基于s3的Data Lake中。

    这次演讲概述了我们的设计,分享了我们的配置,指出了一些陷阱,最后将我们的结果应用到安全、会计和管理的用例中。学会管理你的存储空间!每一个新的机器学习模型——以及每一个新的产品特性——都会创建几十个中间数据模型和成千上万个塞满了通常无用的日志记录和调试数据的文件。通过参加我们的会议,您将学习如何使用我们的定量、基于证据的方法管理您组织的数据扩展。