我的数据在哪里?

砖使用共同责任模型创建、配置和访问块存储卷和对象存储位置在您的云账户。加载数据与砖的结果或保存数据文件存储在块存储或对象存储。以下矩阵提供了一个快速参考:

操作

位置

UI数据上传

对象存储

DBFS文件上传

对象存储

上传数据和自动加载程序

对象存储

上传数据复制

对象存储

创建表

对象存储

与Apache火花保存数据

对象存储

保存数据和熊猫

块存储

从网络下载数据在一个笔记本上

块存储

对象存储是什么?

在云计算中,对象存储或blob存储是指存储容器,保持数据作为对象,每个对象组成的数据,元数据和一个全局唯一资源标识符(URI)。在对象存储数据操作业务往往局限于创建、读取、更新和删除(CRUD)通过REST API接口。一些对象存储产品包括版本管理和生命周期管理等功能。对象存储有以下好处:

  • 高可用性、耐久性和可靠性。

  • 低成本存储相比其他存储选项。

  • 无限可扩展(总量有限的存储在一个给定的区域云)。

大多数云计算数据湖泊之上的开源云对象存储的数据格式。bob下载地址

砖使用对象存储的如何?

对象存储是存储的主要形式使用砖对大多数操作。砖的文件系统(DBFS)允许砖在对象存储用户与文件类似于任何其他文件系统如何。除非你特别配置表对一个外部数据系统,所有表中创建数据砖在云存储数据对象存储。

三角洲湖文件存储在云对象存储数据砖Lakehouse提供数据基础。

你如何配置云对象存储数据砖吗?

砖使用对象存储云存储的数据文件和表。在工作区部署,砖配置云被称为对象存储位置DBFS根。您可以配置连接其他云对象存储位置在您的帐户。

在几乎所有情况下,数据文件与使用Apache砖云存储在对象存储的火花。看到下面的文章指导配置连接:

块存储是什么?

在云计算、块存储或磁盘存储是指存储卷,与传统硬盘驱动器(hdd)或固态硬盘(ssd),也简称为“硬盘”。当部署块存储在云计算环境中,通常一个逻辑分区的一个或多个物理驱动器部署。实现产品和云供应商之间略有不同,但通常是发现在实现以下特征:

  • 所有的虚拟机(vm)需要一个附加块存储卷。

  • 文件和程序安装一块存储卷持续只要块存储卷依然存在。

  • 块存储卷通常用于临时数据存储。

  • 块存储卷附加到虚拟机通常与虚拟机删除。

砖使用块存储如何?

当你打开计算资源、数据砖配置和部署vm和高度块存储卷。这个块存储用于存储临时数据文件的生命周期计算。这些文件包括操作系统和安装库,除了数据使用的磁盘高速缓存。而Apache火花使用高效的并行化和数据块存储在后台加载,大多数代码运行在砖不直接保存或加载数据块存储。

您可以运行任意代码如Python或Bash命令使用块存储节点附加到你的驱动。看到文件系统驱动程序访问文件

在Python工作区启用工作区文件后,用户可以保存和加载数据和文件存储与笔记本电脑,而不是需要与块存储驱动程序。看到以编程方式与工作区文件