Scala开发人员的数据库

本文提供了使用Scala语言在Databricks中开发笔记本和作业的指南。第一部分提供了常见工作流和任务的教程链接。第二部分提供了api、库和关键工具的链接。

入门的基本工作流程是:

除此之外,你还可以拓展到更具体的话题:

教程

下面的教程提供了示例代码和笔记本,以了解常见的工作流程。看到导入笔记本电脑有关如何将笔记本示例导入工作空间的说明。

参考

下面的小节列出了一些关键特性和技巧,可以帮助您开始使用Scala进行Databricks开发。

使用笔记本和Databricks Repos管理代码

砖的笔记本Scala的支持。这些笔记本提供了类似于Jupyter的功能,但增加了一些功能,比如使用大数据的内置可视化,用于调试和性能监控的Apache Spark集成,以及用于跟踪机器学习实验的MLflow集成。从以下开始导入笔记本电脑.一旦您可以访问集群,您就可以附上笔记本到集群和运行笔记本

提示

要完全重置笔记本的状态,可以重新启动内核。对于Jupyter用户,Jupyter中的“重启内核”选项对应于在Databricks中卸载和重新加载笔记本。要重新启动笔记本中的内核,单击左上角的集群下拉菜单,然后单击分离和重新连接.这将从集群中分离笔记本并重新连接它,这会重新启动进程。

砖回购允许用户将笔记本和其他文件与Git存储库同步。Databricks Repos有助于代码版本控制和协作,它可以简化将完整的代码存储库导入Databricks,查看过去的笔记本版本,并与IDE开发集成。从以下开始克隆远程Git存储库.然后,您可以使用存储库克隆打开或创建笔记本,附上笔记本到集群,和运行笔记本

集群和库

集群为任何规模的集群提供计算管理:从单节点集群到大型集群。您可以根据需要定制集群硬件和库。数据科学家通常通过以下方式开始工作创建集群或者使用现有的共享的集群.一旦您可以访问集群,您就可以附上笔记本到集群或运行作业集群上。

Databricks集群使用Databricks运行时,该运行时提供了许多开箱即用的流行库,包括Apache Spark、Delta Lake等等。您还可以安装额外的第三方或自定义库,用于笔记本和作业。

可视化

Databricks Scala笔记本内置了对许多类型的支持可视化.你也可以使用遗留的可视化:

互操作性

本节介绍支持Scala和SQL互操作的特性。

工作

您可以按照计划或触发自动执行Scala工作负载工作在砖。乔布斯可以运行笔记本电脑和jar。

ide、开发工具和api

除了在Databricks笔记本中开发Scala代码外,您还可以使用集成开发环境(ide)(如IntelliJ IDEA)进行外部开发。要在外部开发环境和Databricks之间同步工作,有以下几个选项:

Databricks提供了一整套支持自动化和与外部工具集成的REST api。您可以使用api来管理集群和库、代码和其他工作空间对象、工作负载和作业等资源。看到REST API(最新)

有关ide、开发人员工具和api的更多信息,请参见开发人员工具和指导

额外的资源