《数据库》中数据准备的介绍

本文描述了Databricks如何帮助您为分析和机器学习准备数据。数据准备通常是分析和机器学习项目中最耗时的部分,良好的数据对于确保准确和有用的结果非常重要。

数据准备任务

数据准备包括以下任务:

  • 清理和格式化数据。这包括处理缺失值或异常值、确保数据格式正确以及删除不需要的列等任务。

  • 数据预处理。这包括数值转换、数据聚合、文本或图像数据编码以及创建新功能等任务。

  • 结合数据。这包括连接表或合并数据集之类的任务。

数据准备资源和信息

Databricks Lakehouse为数据摄取、准备、分析和机器学习以及监控提供了统bob体育客户端下载一的平台。

  • 大奖章湖屋建筑通过指定一组不断提高质量的数据层,指导您进行数据准备。在数据存储在为高效分析而优化的布局中之前,该体系结构维护ACID保证,因为数据要经过多层验证和转换。

  • Delta活动表是用于构建可靠、可维护和可测试的数据处理管道的框架。您可以定义要对数据执行的转换,Delta Live Tables管理任务编排、集群管理、监控、数据质量和错误处理。

  • Databricks合作伙伴连接允许您将Databricks工作区直接连接到第三方数据准备和转换合作伙伴。bob体育外网下载合作伙伴连接代表您提供所需的Databricks资源,然后将资源详细信息传递给合作伙伴。

  • Databricks Runtime和Databricks Runtime ML提供预构建的环境,其中已经安装了许多最广泛使用的数据准备库。中提供了所有内置库的列表发布说明

  • 机器学习的特征工程是将原始数据转换为可用于开发机器学习模型的特征的过程。对于ML应用,Databricks功能商店帮助您的团队发现和重用特性,跟踪特性沿袭,并将特性发布到在线商店以实现实时服务和自动查找。