扩大和读取Zip压缩文件

您可以使用解压缩Bash命令扩展文件或目录文件的Zip压缩。如果您下载或遇到一个文件或目录的结局. zip在继续之前,扩大数据。

请注意

Apache火花提供了本地与压缩铺交互文件编解码器。默认情况下,铺砖结尾写的文件.snappy.parquet,表明他们使用时髦的压缩。

如何解压缩数据

的砖% sh神奇的命令可以执行任意的Bash代码,包括解压缩命令。

下面的例子使用了一个压缩从互联网下载的CSV文件。您还可以使用砖实用程序将文件移动到司机体积扩大之前。看到从互联网上下载数据砖公用事业

下面的代码使用旋度下载,然后解压缩扩大数据:

% sh / tmp / LoanStats3a.csv curl https://resources.lendingclub.com/LoanStats3a.csv.zip——输出。zip解压/ tmp / LoanStats3a.csv.zip

使用dbutils扩展文件移回云对象存储允许平行阅读,如以下几点:

dbutilsfsmv(“文件:/ LoanStats3a.csv”,“dbfs: / tmp / LoanStats3a.csv”)

在这个例子中,下载的数据有一个评论在第一行和第二头。现在数据已经扩展和移动,使用标准的选择阅读CSV文件,如以下示例:

df=火花格式(“csv”)选项(“skipRows”,1)选项(“头”,真正的)负载(“/ tmp / LoanStats3a.csv”)显示(df)