介绍数据准备数据砖

本文描述了如何用数据砖可以帮助你准备分析和机器学习。数据准备通常是最耗时的组件的一个分析和机器学习项目,和良好的数据是重要的,以确保准确和有用的结果。

数据准备工作

数据准备包括以下任务:

  • 清洁和格式化数据。这包括任务,比如处理缺失值或离群值,确保数据的正确格式,删除不需要的列。

  • 数据预处理。这包括任务如数值转换、聚合数据编码文本或图像数据,并创建新特性。

  • 结合数据。这包括连接表等任务或合并数据集。

数据准备的资源和信息

数据摄取的砖Lakehouse提供了一个统一的平台,制备、分析和机器学习和监控。bob体育客户端下载

  • 大奖章lakehouse架构指导您在数据准备通过指定一组数据层的质量增加。架构保持酸担保作为数据经过多层次的验证和转换之前存储在一个布局优化的有效分析。

  • 三角洲生活表是一个框架为构建可靠、可维护、可测试的数据处理管道。你定义转换执行数据,和δ生活表管理任务编排,集群管理、监控、数据质量和错误处理。

  • 砖的合作伙伴联系直接让你连接你的砖工作空间的第三方数据准备和转换合作伙伴。bob体育外网下载合作伙伴连接规定所需的砖资源代表你,然后将资源详细信息传递给合作伙伴。

  • 砖运行时和砖运行时毫升提供预构建环境,使用最广泛的数据准备的许多图书馆已经安装了。所有内置库的列表中可用发布说明

  • 特性工程机器学习是一个过程,将原始数据转化为特性,可用于开发的机器学习模型。对于毫升应用程序,砖特性的商店帮助你的团队发现和重用特性,跟踪特性血统,和发布功能为实时在线商店和自动查找服务。