培训

注册

按角色筛选

学习路径

注册

2020年Spark + AI峰会设有许多会前培训研讨会,其中包括指导和实践练习,以帮助您提高Apache Spark™和数据工程技能。

管理人员统一数据分析入门
(请与Databricks帐户代表联系以获取注册代码)

角色:商业领袖
持续时间:半天

发现Databricks以及它如何让您的数据团队停止在竖井中工作,简化数据准备,允许敏捷的AI生态系统,并阻止基础设施的阻碍。在本课程中,我们将回顾基本的大数据概念,探索为什么许多组织都在努力实现真正的人工智能,并深入研究如何使用统一数据分析平台的组件来克服这些挑战。bob体育客户端下载

先决条件:

  • 不需要编程经验
  • 请与Databricks帐户代表联系以获取注册代码

三角洲湖简介

角色:业务负责人,平台管理员,SQL分析bob体育客户端下载师,数据工程师,数据科学家
持续时间:半天

了解Delta Lake是什么,它如何简化和优化数据架构,以及数据管道工程。本课程将深入了解Delta Lake的核心功能,以及它们如何为数据湖带来可靠性、性能和生命周期管理。

先决条件:

  • 不需要编程经验

砖管理

角色:bob体育客户端下载平台管理员
持续时间:半天

学习管理Databricks工作区的管理和安全最佳实践。在本课程中,我们将指导您使用管理控制台管理用户和工作空间存储,为您的工作空间、集群、池和作业配置访问控制,并应用集群供应策略和使用管理功能,以在不同的场景中最大化可用性和成本效益。然后,我们将介绍数据保护功能,并使用Databricks最佳实践配置数据访问控制。最后,我们将介绍Databricks平台架构和部署模型,以及每种平台的网络安bob体育客户端下载全和遵从性特性。

先决条件:

  • 不需要编程经验

Apache Spark™编程介绍

角色:数据工程师,数据科学家
持续时间:半天

在一个案例研究驱动的课程中学习Spark编程的基础知识,探索DataFrame API的核心组件。您将向各种数据源读取和写入数据,通过纠正模式和解析不同的数据类型来预处理数据,并应用各种DataFrame转换和操作来回答业务问题。本课程旨在提供浏览Spark文档并立即开始编程所需的基本概念和技能。本课程使用Python/Scala授课。

先决条件:

  • 不需要Apache Spark经验
  • 熟悉Python或Scala编程

数据库上的SQL

角色:SQL分析师
持续时间:半天

学习如何利用Databricks上的SQL轻松发现关于大数据的见解。Databricks工作空间提供了一个强大的数据处理环境,数据专业人员可以在其中遵循传统的数据分析工作流,包括探索、可视化和准备数据以与利益相关者共享。本课程旨在让您开始使用Databricks功能来获得关于数据的可共享见解。本课程只使用SQL语言授课。

先决条件:

  • 不需要Apache Spark经验
  • 基本熟悉ANSI SQL

Apache Spark调优和最佳实践

角色:数据工程师
持续时间:半天

学习并实现优化的最佳实践,同时诊断和修复各种性能问题。您将完成有指导的编码挑战并重构现有代码,通过应用您所学到的最佳实践来提高整体性能。本课程使用Python/Scala授课。

先决条件:

  • 6个月以上Spark DataFrame API工作经验
  • 中级Python或Scala编程经验

使用Delta Lake为Apache Spark构建更好的数据管道

角色:数据工程师
持续时间:半天

学习在Databricks上使用Apache Spark和Delta Lake构建健壮的数据管道,执行ETL、数据清理和数据聚合。Delta Lake旨在克服与传统数据湖管道相关的许多问题。

先决条件:

  • 6个月以上Spark DataFrame API工作经验
  • 中级编程经验

结构化流与数据

角色:数据工程师
持续时间:半天

了解如何使用结构化流从文件和发布者-订阅系统摄取数据。您将学习流系统的基础知识,如何读取、写入和显示流数据,以及如何与Databricks Delta一起使用结构化流。然后,您将使用一个发布-订阅系统来传输数据并将有意义的见解可视化。本课程同时使用Python和Scala授课。

先决条件:

  • DataFrames API的初学者经验
  • 中级Python或Scala编程经验

Apache Spark用于机器学习和数据科学

角色:数据科学家
持续时间:半天

本课程主要介绍如何使用Spark进行分布式机器学习。学生将使用MLlib构建和评估管道,了解单节点和分布式ML之间的差异,并优化大规模超参数调优。本课程同时使用Python和Scala授课。

先决条件:

  • 中级Python或Scala编程经验
  • DataFrame API的初学者经验
  • 基本了解机器学习的概念

使用TensorFlow和Apache Spark扩展深度学习

角色:数据科学家
持续时间:半天

本课程全面概述了如何使用Apache Spark扩展神经网络的训练和部署。我们指导学生使用TensorFlow构建深度学习模型,通过MLflow使用Spark udf执行分布式推理,并使用Horovod跨集群训练分布式模型。本课程完全用Python授课。

先决条件:

  • 有Python和PySpark编程经验
  • 基本了解机器学习的概念
  • 强烈建议有Keras/TensorFlow的经验

强化学习简介

角色:数据科学家
持续时间:半天

在本课程中,您将学习强化学习理论并获得实践。完成本课程后,您将了解有监督、无监督、强化学习之间的区别,并理解马尔可夫决策过程(MDPs)和动态规划。你将能够制定一个强化学习问题,并在Python中实现策略评估,策略迭代和值迭代算法(使用动态编程)。本课程完全用Python授课。

先决条件:

  • 具有Python高级编程结构的经验(即编写类,扩展类等)
  • 有监督学习和无监督学习的实际经验
  • 概率论和线性代数的理解

无模型强化学习

角色:数据科学家
持续时间:半天

在本课程中,您将学习无模型强化学习理论并获得实践。你将能够制定一个强化学习问题,并实现无模型的强化学习算法。特别是,您将实现蒙特卡罗,TD和Sarsa算法的预测和控制任务。本课程完全用Python授课。

先决条件:

  • 具有Python高级编程结构的经验(即编写类,扩展类等)
  • 有监督学习和无监督学习的实际经验
  • 概率论和线性代数的理解
  • 熟悉动态规划和马尔可夫决策过程
  • 有OpenAI健身经验
  • 强化学习入门或同等经验

MLflow:管理机器学习生命周期(卖完了)

角色:数据科学家和数据工程师
持续时间:半天

在本实践课程中,数据科学家和数据工程师将学习使用MLflow管理实验、项目、模型和生产模型注册表的最佳实践。在本课程结束时,您将建立一个管道,使用训练机器学习模型的环境来训练、注册和部署机器学习模型。本课程完全用Python授课,与机器学习部署课程搭配良好。

先决条件:

  • 有Python编程经验
  • ML概念的工作知识

机器学习部署:3个模型部署范例,监控和警报(卖完了)

角色:数据科学家和数据工程师
持续时间:半天

在本实践性课程中,数据科学家和数据工程师将学习在这些范例中部署机器学习模型的最佳实践:批处理、流处理和使用REST的实时。它探讨了在部署机器学习解决方案时所面临的常见生产问题,并在将这些模型部署到生产环境后对其进行监控。在本课程结束时,您将构建在各种部署场景中部署和监控机器学习模型的基础设施。本课程完全用Python授课,与MLflow课程搭配良好。

先决条件:

  • 有Python编程经验
  • ML概念的工作知识

Apache SparkR/sparklyr中的分布式机器学习

角色:数据科学家
持续时间:半天

在本课程中,学生将学习如何使用SparkR和sparklyr在分布式环境中应用机器学习技术。学生将学习Spark架构,Spark DataFrame api,构建ML模型,并执行超参数调优和管道优化。这门课程结合了讲座、演示和动手实验。本课程完全用R语言授课。

先决条件:

  • 有R编程经验

大规模自然语言处理

角色:数据科学家
持续时间:半天

本课程将教你自然语言处理(NLP)的基础知识,以及如何大规模地进行自然语言处理。通过应用预训练的词嵌入,为数据集生成词频-逆文档频率(TFIDF)向量,并使用降维技术等,您将解决分类、情感分析和文本争论任务。本课程完全用Python授课。

先决条件:

  • 有Python编程经验

金融中的实际问题解决:使用Apache Spark进行实时数据分析

角色:数据工程师,数据科学家
持续时间:半天

在这个半天的课程中,您将了解Databricks和Spark如何帮助解决在使用财务数据时面临的现实问题。您将学习如何处理脏数据,以及如何开始使用结构化流和实时分析。学生还将获得一个更长的带回家的顶点练习,作为课程的额外内容,在那里他们可以应用所介绍的所有概念。本课程同时使用Python和Scala授课。

先决条件:

  • DataFrames API的初学者到中级经验
  • 中级到高级的Python或Scala编程经验

零售中的实际问题解决:使用Apache Spark进行实时数据分析

角色:数据工程师,数据科学家
持续时间:半天

在这个半天的课程中,您将了解Databricks和Spark如何帮助解决您在使用零售数据时面临的现实问题。您将学习如何处理脏数据,并开始使用结构化流和实时分析。学生还将获得一个更长的带回家的顶点练习,作为课程的额外内容,在那里他们可以应用所介绍的所有概念。本课程同时使用Python和Scala授课。

先决条件:

  • DataFrames API的初学者到中级经验
  • 中级到高级的Python或Scala编程经验

医疗保健中的实际问题解决:使用Apache Spark进行实时数据分析

角色:数据工程师,数据科学家
持续时间:半天

在这个半天的课程中,您将了解Databricks和Spark如何帮助解决您在使用医疗保健数据时面临的现实问题。您将学习如何处理脏数据,并开始使用结构化流和实时分析。学生还将获得一个更长的带回家的顶点练习,作为课程的额外内容,在那里你可以测试所有提出的概念。本课程同时使用Python和Scala授课。

先决条件:

  • DataFrames API的初学者到中级经验
  • 中级到高级的Python或Scala编程经验

制造业中的实际问题解决:使用Apache Spark进行实时数据分析

角色:数据工程师,数据科学家
持续时间:半天

在这个半天的课程中,学生将了解Databricks和Spark如何帮助解决您在使用制造数据时面临的现实问题。学生将学习如何处理脏数据,并开始使用结构化流和实时分析。学生还将获得一个更长的带回家的顶点练习,作为课程的额外内容,在那里你可以测试所有提出的概念。

先决条件:

  • DataFrames API的初学者到中级经验
  • 中级到高级的Python或Scala编程经验
  • 本课程同时使用Python和Scala授课

认证准备:Databricks Apache Spark 2.4认证副开发人员(卖完了)

角色:数据工程师,数据科学家
持续时间:半天

在这个半天的课程中,学生将熟悉Databricks认证副开发人员Apache Spark 2.4考试的格式和准备技巧。我们将回顾考试中涉及的DataFrame API和Spark架构的哪些部分,以及他们需要准备考试的技能。

先决条件:

  • 具备使用Python或Scala中的DataFrames API的中级经验

卖完了!
Apache Spark 3.0有什么新特性?

角色:SQL分析师,数据工程师,数据科学家
持续时间:90分钟,重复4次

本课程涵盖Spark 3.0中的新功能。它主要关注性能、监控、可用性、稳定性、可扩展性、PySpark和SparkR的更新。学生还将了解与2的向后兼容性。x和更新到Spark 3.0所需的注意事项。

先决条件:

  • 熟悉Apache Spark 2.x