样本数据集

第三方提供了各种各样的数据集，您可以将它们上传到Databricks工作区并使用。Databricks还提供了各种已经挂载到的数据集DBFS在Databricks工作区中。

第三方样本数据集

Databricks具有内置工具，可以快速将第三方样本数据集作为逗号分隔值(CSV)文件上传到Databricks工作空间。以CSV格式提供的一些流行的第三方样本数据集:

样本数据集		要下载样本数据集作为CSV文件…
松鼠普查		在数据网页,点击公园的数据，松鼠数据,或故事．
OWID数据集集合		在GitHub存储库中，单击数据集文件夹中。单击包含目标数据集的子文件夹，然后单击数据集的CSV文件。
Data.gov CSV数据集		在搜索结果页面上，单击目标搜索结果，在CSV图标,点击下载．
钻石(需要一个Kaggle账户)		在数据集的网页上数据选项卡，在数据Tab，在diamonds.csv，按下载图标。
纽约市出租车行程(需要一个Kaggle账户)		在数据集的网页上数据Tab，在sample_submission.zip，按下载图标。要查找数据集的CSV文件，请提取下载的ZIP文件的内容。
不明飞行物(需要一个data.world账户)		在数据集的网页上，旁边nuforc_reports.csv，按下载图标。

要在Databricks工作空间中使用第三方示例数据集，请执行以下操作:

按照第三方的指示将数据集作为CSV文件下载到您的本地机器。
上传CSV文件从本地计算机到Databricks工作区。
要处理导入的数据，请使用Databricks SQL To查询数据．或者你可以用a笔记本来加载数据为一个DataFrame．

数据集(Databricks -datasets)

Databricks包括各种各样的数据集DBFS．

请注意

Databricks数据集的可用性和位置如有更改，恕不另行通知。

浏览Databricks数据集

要在笔记本上使用Python、Scala或R浏览数据科学与工程或Databricks机器学习中的这些文件，可以使用砖公用事业．本例中的代码列出了所有可用的Databricks数据集。

              显示（dbutils．fs．ls（' / databricks-datasets '）)
             

              显示（dbutils．fs．ls（“/ databricks-datasets”）)
             

              ％fsls“/ databricks-datasets”
             

Unity Catalog数据集

Unity Catalog提供了对大量样例数据集的访问样品目录。可以查看这些数据集数据浏览器界面并直接使用< catalog_name >, < database_name >。< table_name >模式。

的nyctaxi数据库包含表旅行该网站通过Delta Lake存储了纽约市出租车乘坐的详细信息。下面的代码示例返回该表中的所有记录:

             选择＊从样品．nyctaxi．旅行
            

的tpch数据库中包含tpc - h基准测试．要查看这个数据库中的表，运行:

             显示表在样品．tpch
            

获取有关Databricks数据集的信息

要获取关于数据集的更多信息，可以使用本地文件API打印数据集自述(如果有的话)在数据科学与工程或Databricks机器学习的笔记本上使用Python、R或Scala，如本代码示例所示。

              f＝开放（' / dbfs / databricks-datasets / README.md '，“r”）打印（f．读（））
             

              scala．io．源．fromFile（“/ dbfs / databricks-datasets / README.md”）.foreach｛打印｝
             

              图书馆（readr）f＝read_line（“/ dbfs / databricks-datasets / README.md”，跳过＝0，n_max＝1 l）打印（f）
             

基于Databricks数据集创建一个表

这个代码示例演示了如何在Databricks SQL查询编辑器中使用SQL，或者如何在数据科学与工程或Databricks机器学习的笔记本中使用Python、Scala或R来创建基于Databricks数据集的表:

              创建表格默认的．people10m选项（路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”）
             

              火花．sql（创建默认表。people10m选项（路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”）"）
             

              火花．sql（创建默认表。people10m选项（路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”）"）
             

              图书馆（SparkR）sparkR.session（）sql（创建默认表。people10m选项（路径“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”）"）