Gengliang王

软件工程师,砖

    在砖Gengliang王是一个软件工程师。他是一个活跃的火花贡献者和他的主要兴趣是在火花SQL。此前,他曾在Linkedin和Hulu构建后端web服务。

    过去的会议

    峰会的欧洲2019 Apache火花的内置文件来源深度

    2019年10月15日凌晨5点PT

    火花3.0版本中,所有内置的文件源连接器(包括拼花、兽人、JSON、Avro CSV、文本)被重新使用新的数据源API V2。我们会给一个技术概述的火花读写这些文件格式根据用户指定的数据布局。谈话也将解释蜂巢Serde和本地连接器之间的差异,并分享的经验如何调优连接器和选择最好的数据布局实现最佳性能。

    2018年峰会 Apache V2-continues火花数据源

    2018年6月5日凌晨5点PT

    一般计算引擎,火花可以从各种数据管理/过程数据的存储系统,包括HDFS,蜂巢,卡桑德拉和卡夫卡。灵活性和高吞吐量,火花定义数据源API,它是存储的抽象层。数据源API有两个要求。

    1)普遍性:支持读/写大多数数据管理/存储系统。

    2)灵活性:定制和优化的读和写路径不同系统基于他们的能力。

    数据源API V2是最重要的一个特性和火花2.3。这个演讲将会深入的设计和实现数据源API V2,与数据源的API比较V1。我们还演示了如何实现一个基于文件的数据源使用数据源API V2显示其通用性和灵活性。

    会话标签:# DDSAIS12

    2018年峰会 Apache火花数据源V2

    2018年6月5日凌晨5点PT

    一般计算引擎,火花可以从各种数据管理/过程数据的存储系统,包括HDFS,蜂巢,卡桑德拉和卡夫卡。灵活性和高吞吐量,火花定义数据源API,它是存储的抽象层。数据源API有两个要求。

    1)普遍性:支持读/写大多数数据管理/存储系统。

    2)灵活性:定制和优化的读和写路径不同系统基于他们的能力。

    数据源API V2是最重要的一个特性和火花2.3。这个演讲将会深入的设计和实现数据源API V2,与数据源的API比较V1。我们还演示了如何实现一个基于文件的数据源使用数据源API V2显示其通用性和灵活性。

    会话标签:# DDSAIS12