2018年1月1日

解析前过滤:使用Sparser对原始数据进行更快的分析

作者:Shoumik Palkar, Firas Abuzaid, Peter Bailis, Matei Zaharia

下载论文

摘要

探索性大数据应用程序通常运行在原始的非结构化或半结构化数据格式上，如JSON文件或文本日志。这些应用程序可能花费80% - 90%的执行时间解析数据。在本文中，我们提出了一种减少这种开销的新方法:在解析前对数据的原始字节流应用过滤器。我们将这种技术称为原始过滤，它利用了现代硬件的特性以及在许多探索性应用程序中发现的查询的高选择性。使用原始过滤，用户指定的查询谓词被编译成一组过滤原语，称为原始过滤器(RFs)。rf是快速的、基于simd的运算符，偶尔会产生假阳性，但绝不会产生假阴性。我们将多个RF组合成一个RF级联，以降低误报率并最大化解析吞吐量。由于最佳RF级联是数据依赖的，我们提出了一个优化器，动态选择具有最佳预期吞吐量的RF组合，在全球最佳级联的10%以内实现，同时增加不到1.2%的开销。我们在一个叫做Sparser的系统中实现了这些技术，它会自动管理一个解析级联，给定一个支持格式的数据流(例如JSON、Avro、Parquet)和一个用户查询。我们展示了许多现实世界的应用程序是高度选择性的，并受益于Sparser。 Across diverse workloads, Sparser accelerates state-of-the-art parsers such as Mison by up to 22× and improves end-to-end application performance by up to 9×.

摘要

相关内容