Spark SQL 2.4。x提供了两个数据源api,结构化查询可以使用它们访问自定义格式的数据,可能是在不支持的存储系统中。有较老的和几乎遗留的DataSource API V1和可以考虑的现代DataSource API V2。本次演讲将向您介绍每个DataSource API的主要实体,并向您展示如何在舞台上实时编写新数据源的步骤。这应该给了您足够的知识来扩展Spark SQL中的可用数据源。
发展及培训服务
Jacek是一名独立顾问,为Apache Spark(和Scala, sbt与Hadoop YARN, Apache Kafka, Apache Hive, Apache Mesos, Akka Actors/Stream/HTTP和Docker)提供开发和培训服务。他领导华沙Scala爱好者和华沙火花聚会。最新的项目是在https://jaceklaskowski.gitbooks.io/mastering-apache-spark/中深入了解Apache Spark。