如何指定DBFS路径

学习如何在Apache火花指定DBFS路径,Bash, DBUtils, Python, Scala。

写的ram.sankarasubramanian

去年发表在:2022年12月9日

当使用砖你有时会需要访问的数据砖文件系统(DBFS)。

访问DBFS是用标准的文件系统上的文件命令,然而语法变化取决于所使用的语言或工具。

例如,采取以下DBFS路径:

dbfs: / mnt / test_folder / test_folder1 /

Apache火花

在火花,你应该指定在火花读取命令的完整路径。

spark.read.parquet (“dbfs: / mnt / test_folder / test_folder1 / file.parquet”)

DBUtils

当你使用DBUtils,应该使用完整的DBFS路径,就像在火花命令。DBFS路径周围的特定于语言的格式取决于所使用的语言不同。

Bash

% fs ls dbfs: / mnt / test_folder / test_folder1 /

Python

% python dbutils.fs.ls (dbfs: / mnt / test_folder / test_folder1 / ')

Scala

% scala dbutils.fs.ls (“dbfs: / mnt / test_folder test_folder1 /”)
删除

请注意

指定dbfs:不需要使用时DBUtils或火花命令。的路径dbfs: / mnt / test_folder / test_folder1 /相当于/ mnt / test_folder / test_folder1 /

Shell命令

Shell命令不承认足协路径。相反,DBFS和文件内,访问相同的语法和其他文件夹的文件系统。

Bash

ls / dbfs / mnt / test_folder / test_folder1 /猫/ dbfs / mnt / test_folder / test_folder1 / file_name.txt

Python

导入操作系统os.listdir (' / dbfs / mnt / test_folder / test_folder1 / ')

Scala

导入java。文件val目录=新文件(“/ dbfs / mnt / test_folder / test_folder1 /”) directory.listFiles


这篇文章有用吗?