探索性数据分析Databricks:工具和技术
本文描述了在Databricks上进行探索性数据分析(EDA)的工具和技术。
什么是EDA ?它为什么有用?
探索性数据分析(EDA)包括探索数据集以总结其主要特征并识别数据中的任何问题的方法。使用统计方法和可视化,您可以了解数据集,以确定其是否准备好进行分析,并告知应用哪些技术进行数据准备。EDA还可以影响您选择应用哪些算法来训练ML模型。
Databricks中有哪些EDA工具?
Databricks内置了用于处理数据的分析和可视化工具。
Databricks Runtime和Databricks Runtime ML提供了预先构建的环境,其中已经安装了流行的数据探索库。中可以看到内置库的列表发布说明.
此外,以下文章展示了Databricks中可视化工具的示例:
使用Databricks,您可以结合SQL和Python来探索数据。在Databricks Python笔记本中,来自SQL语言单元格的表结果自动作为Python DataFrame可用。有关详情,请参阅在Python笔记本中探索SQL单元格结果.