Apache引发大规模的云

下载幻灯片

使用Apache火花分析大型数据集在云中带来一系列的挑战。不同阶段的管道可能受到CPU、内存、磁盘和/或网络IO。但是,如果所有这些阶段必须在同一集群上运行吗?在云中,你有限的控制硬件集群上运行。

你可能有更少的控制您的原始输入文件的大小和格式。性能调优是一个迭代和实验过程。令人沮丧的非常大的数据集:伟大的工作与300亿行和4000亿行可能不工作。但由于战略优化和妥协,50 + TiB的数据集可以没什么大不了的。

通过使用火花UI和简单的指标,探索如何诊断和解决就业的问题:

  • 分级集群基于数据集(洗牌分区)
  • 摄入挑战,良好的开端是成功的一半(globbing S3,小文件)
  • 管理内存(排序GC -当平行,当G1,当offheap可以帮助你)
  • 洗牌(给一个小得到很多配置更好的开箱即用的洗牌)——泄漏赢得(分区)
  • 调度(公平vs FIFO,为你的管道有区别吗?)
  • 缓存和持久性(这是做生意的成本,所以你的选择是什么?)
  • 容错(黑名单,投机,任务收获)
  • 做最好的一个糟糕的交易(斜连接、窗口udf,非常大的查询计划)
  • 写信给S3(处理写分区,HDFS直接和s3DistCp vs写作S3)

试着砖
看到更多的火花+人工智能峰会欧洲2019个视频


«回来
关于玫瑰图

布隆伯格

玫瑰图米作为一个人工智能的高级软件开发人员加入了彭博集团2020年4月。之前,她担任高级软件工程师Coatue管理、领导API的开发人员在双子座的信任,和一个的工程总监罗福斯合作伙伴。bob体育外网下载