样本数据集

第三方提供了各种各样的数据集,您可以将它们上传到Databricks工作区并使用。Databricks还提供了各种已经挂载到的数据集DBFS在Databricks工作区中。

第三方样本数据集

Databricks具有内置工具,可以快速将第三方样本数据集作为逗号分隔值(CSV)文件上传到Databricks工作空间。以CSV格式提供的一些流行的第三方样本数据集:

样本数据集

要下载样本数据集作为CSV文件…

松鼠普查

数据网页,点击公园的数据松鼠数据,或故事

OWID数据集集合

在GitHub存储库中,单击数据集文件夹中。单击包含目标数据集的子文件夹,然后单击数据集的CSV文件。

Data.gov CSV数据集

在搜索结果页面上,单击目标搜索结果,在CSV图标,点击下载

钻石(需要一个Kaggle账户)

在数据集的网页上数据选项卡,在数据Tab,在diamonds.csv,按下载图标。

纽约市出租车行程(需要一个Kaggle账户)

在数据集的网页上数据Tab,在sample_submission.zip,按下载图标。要查找数据集的CSV文件,请提取下载的ZIP文件的内容。

不明飞行物(需要一个data.world账户)

在数据集的网页上,旁边nuforc_reports.csv,按下载图标。

要在Databricks工作空间中使用第三方示例数据集,请执行以下操作:

  1. 按照第三方的指示将数据集作为CSV文件下载到您的本地机器。

  2. 上传CSV文件从本地计算机到Databricks工作区。

  3. 要处理导入的数据,请使用Databricks SQL To查询数据.或者你可以用a笔记本加载数据为一个DataFrame

数据集(Databricks -datasets)

Databricks包括各种各样的数据集DBFS

请注意

Databricks数据集的可用性和位置如有更改,恕不另行通知。

浏览Databricks数据集

要在笔记本上使用Python、Scala或R浏览数据科学与工程或Databricks机器学习中的这些文件,可以使用砖公用事业.本例中的代码列出了所有可用的Databricks数据集。

显示dbutilsfsls' / databricks-datasets '))
显示dbutilsfsls“/ databricks-datasets”))
fsls“/ databricks-datasets”

Unity Catalog数据集

Unity Catalog提供了对大量样例数据集的访问样品目录。可以查看这些数据集数据浏览器界面并直接使用< catalog_name >, < database_name >。< table_name >模式。

nyctaxi数据库包含表旅行该网站通过Delta Lake存储了纽约市出租车乘坐的详细信息。下面的代码示例返回该表中的所有记录:

选择样品nyctaxi旅行

tpch数据库中包含tpc - h基准测试.要查看这个数据库中的表,运行:

显示样品tpch

获取有关Databricks数据集的信息

要获取关于数据集的更多信息,可以使用本地文件API打印数据集自述(如果有的话)在数据科学与工程或Databricks机器学习的笔记本上使用Python、R或Scala,如本代码示例所示。

f开放' / dbfs / databricks-datasets / README.md '“r”打印f())
scalaiofromFile“/ dbfs / databricks-datasets / README.md”).foreach打印
图书馆readrfread_line“/ dbfs / databricks-datasets / README.md”跳过0n_max1 l打印f

基于Databricks数据集创建一个表

这个代码示例演示了如何在Databricks SQL查询编辑器中使用SQL,或者如何在数据科学与工程或Databricks机器学习的笔记本中使用Python、Scala或R来创建基于Databricks数据集的表:

创建表格默认的people10m选项路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”
火花sql创建默认表。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)"
火花sql创建默认表。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)"
图书馆SparkRsparkR.session()sql创建默认表。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)"