pb、eb和超越:管理δ湖泊大规模交互查询

下载幻灯片

数据生产继续扩大和技术管理也需要扩展。建筑管道可以处理每天pb依次创建数据湖泊与eb的历史数据。在砖,我们帮助我们的客户把这些数据湖泊变成金矿使用Apache火花的有价值的信息。这个演讲将介绍技术优化访问这些数据使用δ湖泊,湖泊包括范围分区,基于文件的数据跳过,多维聚簇,读取最优化的文件。我们将讨论样本实现和看到的例子查询pb的数据在几秒钟内,没有时间。

我们还将讨论权衡数据工程师处理日常喜欢阅读速度和写作吞吐量,管理仓储费用,和复制数据来支持多个查询资料。我们还将讨论结合批处理和流来实现所需的查询性能。这次会议后,你将有新的想法来管理真正巨大的湖泊三角洲。

试着砖
看到更多的火花+人工智能峰会欧洲2019个视频


«回来
克里斯托弗Hoshino-Fish
关于克里斯托弗Hoshino-Fish

克里斯Hoshino-Fish砖的解决方案架构师。克里斯是一个活跃的表现主题专家组成员、前首席顾问专注于数据工程,处理一些财富500强客户砖。砖之前,克里斯到场公司担任数据工程师管理管道使用Apache火花为3.5年。克里斯计算数学学士学位从加州大学圣克鲁斯。