雅克Nadeau

首席技术官,Dremio

    雅克·纳多是Dremio的首席技术官和联合创始人。他还是开源Apache Arrow项目的PMC主席,领导该项目的bob下载地址技术和社区。在加入Dremio之前,他是MapR的Apache Drill和其他分布式系统技术的架构师和工程经理。此外,Jacques还曾担任企业搜索初创公司YapMap的首席技术官和联合创始人,并在Quigo (AOL)、Offermatica (ADBE)和aQuantive (MSFT)担任工程领导职务。

    过去的会议

    2020年峰会 使用Apache Arrow跨数据源的数据科学

    2020年6月23日下午05:00 PT

    在微服务和云应用的时代,组织将所有数据物理地整合到一个系统中通常是不切实际的。Apache Arrow是一种开源的、bob下载地址柱状的、内存中的数据表示,它使分析系统和数据源能够实时交换和处理数据,简化和加速数据访问,而不必将所有数据复制到一个位置。随着公司继续采用基于微服务和云应用程序的现代架构,将所有数据物理地整合到单个系统中变得越来越困难。在一个数据极度分散、用户期望即时满足的世界中,构建和维护ETL管道的古老方法可能非常繁琐和昂贵。Apache Arrow是一个开源项目bob下载地址,由十多个开源社区发起,它提供了一个标准的柱状内存数据表示和处理框架。Arrow已经成为一种出于分析目的处理内存数据的流行方法。

    在过去的一年里,Arrow已经被嵌入到广泛的开源(和商业)技术中,包括GPU数据库、机器学习库和工具、执行引擎和可视化框架(例如bob下载地址,Anaconda、Dremio、Graphistry、H2O、MapD、Pandas、R、Spark)。在本次演讲中,我们将概述Arrow,并概述几个开源项目如何利用它来实现高性能数据处理和跨系统的互操作性。bob下载地址例如,我们在PySpark (Spark-Pandas互操作性)中演示了50倍的加速。然后,我们将展示公司如何利用Arrow使用户能够跨不同的数据源访问和分析数据,而不必将其物理地合并到一个集中的数据存储库中。