经验教训为自助数据使用Apache火花在SaaS世界做好准备

下载幻灯片

在这次演讲中,我们将分享我们如何受益于使用Apache火花建设工作的新分析产品,以及我们面临的一些挑战。工作日棱镜分析2017年9月推出,从0到一百企业用户在15个月。利用创新技术从Platfora收购给了我们一个启动,但它仍然需要一个相当大的工程努力与工作日生态系统集成。我们增强工作流,添加了新的功能和转换Hadoop-based本地引擎运行在工作日云。所有这一切将不可能没有火花,我们迁移最早期的MapReduce代码。这使我们缩短上市时间,添加高级功能和高性能和坚如磐石的可靠性。我们产品的一个关键组成部分就是自助数据准备。强大的和直观的界面让用户创建etl式管道、混合的工作日和外部数据,同时提供即时反馈,重新执行抽样数据的管道。在幕后,我们编译这些管道通过火花SQL执行计划,利用开源社区所做的多年的工作来提高引擎的查询优化器和物理执行。bob下载地址

我们将概述的高级实现产品功能,映射逻辑模型和子系统,添加新的数据类型的火花,并使用缓存有效和安全,在运行多个簇火花纱,HDFS资源共享。我们还将描述一些真实的战争故事,造成客户延伸产品在复杂度和性能界限。我们得出结论与独特的火花调优指南蒸馏从我们的经验在生产运行,以确保系统能够执行复杂的嵌套与多个可利用和self-unions管道。

试着砖
看到更多的火花+人工智能峰会在旧金山2019视频


«回来
关于帕维尔Hardak

帕维尔与工作日产品管理总监。他工作在棱镜分析产品,专注于后端技术,由Apache Hadoop和火花。帕维尔尤其兴奋大数据、云计算和开源,不一定在这个秩序。bob下载地址在工作日之前,帕维尔是芭蕉,Riak背后的公司,开源NoSQL数据库便,火花和卡夫卡集成。前,帕维尔与边界,开发了实时SaaS监控解决方案和被BMC corp .)收购之前,帕维尔在产品管理和工程工作角色,关注大数据、云计算、网络和分析,并撰写多项专利。

关于Jianneng李

工作日Jianneng李是一个软件开发工程师(和Platfora以前,收购的工作日在2016年底)。他在棱镜分析工作,一个端到端的数据分析产品,工作日的生态系统的一部分,帮助企业更好地理解他们的财务和人力资源数据。激发团队的一部分在分析org Jianneng专门从事分布式系统和数据处理。他喜欢深入激发内部和几个博客发表关于Apache火花和分析。EECS Jianneng持有硕士学位从加州大学伯克利分校、康奈尔大学计算机科学学士学位。