使用DBFS根目录的建议

Databricks使用DBFS根目录作为目录默认位置对于一些工作区操作。Databricks建议不要将任何生产数据或敏感信息存储在DBFS根目录中。本文主要介绍避免意外暴露DBFS根上的敏感数据的建议。

请注意

Databricks配置一个单独的私有存储位置,用于在客户拥有的云存储(称为内部DBFS)中持久化数据和配置。此位置不会向用户公开。

教育用户不要将数据存储在DBFS根目录上

因为工作区中的所有用户都可以访问DBFS根目录,所以所有用户都可以访问存储在这里的任何数据。指导用户避免使用此位置存储敏感数据是很重要的。在Databricks上的Hive metastore中,托管表的默认位置是DBFS根目录;为了防止创建托管表的最终用户写入DBFS根目录,在Hive metastore中创建数据库时在外部存储上声明一个位置。

Unity Catalog管理的表默认使用安全的存储位置。Databricks建议对托管表使用Unity Catalog。

使用审计日志来监视活动

您可以将云审计日志与工作区审计日志一起使用,以监视和识别将数据存储到DBFS根目录的用户。

Databricks建议您启用S3对象级日志记录用于DBFS根桶,以便更快地调查问题。请注意,启用S3对象级日志记录可能会增加AWS的使用成本。

使用客户管理的密钥加密DBFS根数据

您可以使用客户管理的密钥加密DBFS根数据。看到用于工作空间存储的客户管理密钥