使用Apache火花分析大型数据集在云中带来一系列的挑战。不同阶段的管道可能受到CPU、内存、磁盘和/或网络IO。但是,如果所有这些阶段必须在同一集群上运行吗?在云中,你有限的控制硬件集群上运行。
你可能有更少的控制您的原始输入文件的大小和格式。性能调优是一个迭代和实验过程。令人沮丧的非常大的数据集:伟大的工作与300亿行和4000亿行可能不工作。但由于战略优化和妥协,50 + TiB的数据集可以没什么大不了的。
通过使用火花UI和简单的指标,探索如何诊断和解决就业的问题:
布隆伯格
玫瑰图米作为一个人工智能的高级软件开发人员加入了彭博集团2020年4月。之前,她担任高级软件工程师Coatue管理、领导API的开发人员在双子座的信任,和一个的工程总监罗福斯合作伙伴。bob体育外网下载