DataFrames

免费试着砖

什么是DataFrame ?

一个DataFrame是一种数据结构,将数据组织成一个二维表的行和列,就像一个电子表格。DataFrames是最常见的一种数据结构在现代数据分析使用,因为它们是一个灵活的和直观的方式存储和处理数据。

每一个DataFrame包含一个蓝图,称为模式,定义每一列的名称和数据类型。火花DataFrames StringType和IntegerType可以包含通用数据类型,以及数据类型的火花,如StructType。缺失或不完整的值被存储为DataFrame中的值。

一个简单的类比是DataFrame像电子表格命名列。然而,它们之间的区别是,当一个电子表格坐在一台电脑在一个特定的位置,DataFrame可以跨越数千台电脑。这样,DataFrames对大数据的分析成为可能,使用分布式计算集群。

的原因把数据在多个计算机应该直观:要么是数据太大了,适合在一台机器上或它会花太多时间来执行计算在一台机器上。

DataFrames

DataFrame是常见的概念在许多不同的语言和框架。DataFrames是主要的数据类型用于大熊猫、流行的Python数据分析库,和DataFrames也用于R, Scala和其他语言。

额外的资源

回到术语表

了解驱动Lakehouse模式。

现在注册