教程:用笔记本查询数据

教程引导你使用Databricks笔记本用户界面创建集群和笔记本库,从数据集创建表,查询表并显示查询结果

小技巧

您也可以使用数据键Terraform提供创建文章资源看吧创建集群、笔记本和Terraform作业.

需求

注解

如果您没有集群控制特权,您仍然可以完成下方大多数步骤,只要您有访问集群.

从登陆页左侧栏访问基本工作空间实体:工作空间、目录、工作流和计算工作空间是一个特殊根文件夹存储您的Databricks资产,如笔记本和库

引导数据砖笔记本Databricks笔记本接口控件.

步骤1:创建集群

集群集合Databricks计算资源创建集群

  1. 侧栏中点击计算图标计算.

  2. 计算页面上点击创建计算.

  3. 新建计算页上选择12.2LTS系统(scala2.12Spark3.3.2)或从Databricks运行时下载

  4. 点击创建集群.

步骤2:创建笔记本

笔记本集合细胞计算更多使用笔记本的信息见Databricks笔记本简介.创建工作空间笔记本

  1. 侧栏中点击工作空间图标工作空间.

  2. 居家家图标文件夹点击蓝添加按钮添加按钮>记事本.

  3. 将笔记本默认名替换为自有标题并选择SQL语言下拉选择决定默认语言笔记本

    选择语言和标题
  4. 笔记本附在你创建的集群上点击笔记本工具栏集群选择器从下拉菜单中选择集群未见集群即点击多点从对话框下拉菜单中选择集群

步骤3:创建表

使用样本CSV数据文件创建表样本数据集集合数据集Databricks文件系统(DBFS)是什么分布式文件系统安装到Databricks集群有两种选择创建表

选项1:从CSV数据创建spark表

使用此选项可快速运行,只需标准性能水平复制并粘贴代码片段

DROP系统表单IF现有问题钻石;环境变换表单钻石使用CSV选择高山市路径选择"/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv",页眉真实性)

选项2:将CSV数据写入Delta湖格式并创建Delta表

三角湖提供强大的交易存储层,可快速读取并实现其他利益三角湖格式由Parquet文件加事务日志组成使用此选项获取未来操作最佳性能

  1. 将CSV数据读进DataFrame并用Delta湖格式写出命令使用python语言魔术命令中允许用笔记本默认语言(SQL)以外的语言插入命令复制并粘贴代码片段

    百分数ython语言钻石=高山市点火.读取.格式化高山市Csv).选项高山市头人,真实性).选项高山市进化Schema,真实性).负载高山市"/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv"))钻石.写入.格式化高山市德尔塔).模式化高山市重写).保存高山市"/mnt/delta/diamonds")
  2. 创建存储位置三角洲表复制并粘贴代码片段

    DROP系统表单IF现有问题钻石;环境变换表单钻石使用DELTA系统定位'/mnt/delta/diamonds/'

运行单元按键SHIFT+ETER.笔记本自动附在二进制创建并运行单元格命令的集群上

步骤4:查询表

运行 SQL语句查询表色平均方块价

  1. 向笔记本添加单元格时,鼠标跨单元格底部并点击添加单元格图标。

    添加单元格
  2. 拷贝片段并粘贴进细胞

    安全选择颜色显示,微信高山市价钱)AS系统价钱钻石组名BY颜色显示命令设置BYcolo
  3. 新闻发布SHIFT+ETER.笔记本显示方块颜色平均价

    运行命令

步骤5:显示数据

显示图方块平均颜色

  1. 旁边表2标签点击+并点击可视化.

    可视化编辑器显示

  2. 可视化类型下拉验证选择中

  3. 清除水平图复选框

  4. 修改聚合类型y列发自求和平均数.

  5. 点击保存.

    条形图