样本数据集
第三方提供了各种各样的数据集,您可以将它们上传到Databricks工作区并使用。Databricks还提供了各种已经挂载到的数据集DBFS在Databricks工作区中。
第三方样本数据集
Databricks具有内置工具,可以快速将第三方样本数据集作为逗号分隔值(CSV)文件上传到Databricks工作空间。以CSV格式提供的一些流行的第三方样本数据集:
样本数据集 |
要下载样本数据集作为CSV文件… |
|
---|---|---|
在数据网页,点击公园的数据,松鼠数据,或故事. |
||
在GitHub存储库中,单击数据集文件夹中。单击包含目标数据集的子文件夹,然后单击数据集的CSV文件。 |
||
在搜索结果页面上,单击目标搜索结果,在CSV图标,点击下载. |
||
在数据集的网页上数据选项卡,在数据Tab,在diamonds.csv,按下载图标。 |
||
在数据集的网页上数据Tab,在sample_submission.zip,按下载图标。要查找数据集的CSV文件,请提取下载的ZIP文件的内容。 |
||
不明飞行物(需要一个data.world账户) |
在数据集的网页上,旁边nuforc_reports.csv,按下载图标。 |
要在Databricks工作空间中使用第三方示例数据集,请执行以下操作:
按照第三方的指示将数据集作为CSV文件下载到您的本地机器。
上传CSV文件从本地计算机到Databricks工作区。
要处理导入的数据,请使用Databricks SQL To查询数据.或者你可以用a笔记本来加载数据为一个DataFrame.
浏览Databricks数据集
要在笔记本上使用Python、Scala或R浏览数据科学与工程或Databricks机器学习中的这些文件,可以使用砖公用事业.本例中的代码列出了所有可用的Databricks数据集。
显示(dbutils.fs.ls(' / databricks-datasets '))
显示(dbutils.fs.ls(“/ databricks-datasets”))
%fsls“/ databricks-datasets”
Unity Catalog数据集
Unity Catalog提供了对大量样例数据集的访问样品
目录。可以查看这些数据集数据浏览器界面并直接使用< catalog_name >, < database_name >。< table_name >
模式。
的nyctaxi
数据库包含表旅行
该网站通过Delta Lake存储了纽约市出租车乘坐的详细信息。下面的代码示例返回该表中的所有记录:
选择*从样品.nyctaxi.旅行
的tpch
数据库中包含tpc - h基准测试.要查看这个数据库中的表,运行:
显示表在样品.tpch
获取有关Databricks数据集的信息
要获取关于数据集的更多信息,可以使用本地文件API打印数据集自述
(如果有的话)在数据科学与工程或Databricks机器学习的笔记本上使用Python、R或Scala,如本代码示例所示。
f=开放(' / dbfs / databricks-datasets / README.md ',“r”)打印(f.读())
scala.io.源.fromFile(“/ dbfs / databricks-datasets / README.md”).foreach{打印}
图书馆(readr)f=read_line(“/ dbfs / databricks-datasets / README.md”,跳过=0,n_max=1 l)打印(f)
基于Databricks数据集创建一个表
这个代码示例演示了如何在Databricks SQL查询编辑器中使用SQL,或者如何在数据科学与工程或Databricks机器学习的笔记本中使用Python、Scala或R来创建基于Databricks数据集的表:
创建表格默认的.people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)
火花.sql(创建默认表。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)")
火花.sql(创建默认表。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)")
图书馆(SparkR)sparkR.session()sql(创建默认表。people10m选项(路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)")