什么是数据库?
Databricks Lakehouse平台提供了bob体育客户端下载一套统一的工具,用于大规模构建、部署、共享和维护企业级数据解决方案。Databricks在您的云帐户中集成了云存储和安全性,并代表您管理和部署云基础设施。
与开放源码的托管集成bob下载地址
Databricks对开源社区有着坚定的承诺。bob下载地址Databricks在Databricks运行时版本中管理开bob下载地址源集成的更新。以下技术是由Databricks员工创建的开源项目:bob下载地址
Databricks维护了许多集成和扩展这些技术的专有工具,以增加优化的性能和易用性,例如:
Databricks如何与AWS一起工作?
Databricks平台架构由bob体育客户端下载两个主要部分组成:Databricks用于部署、配置和管理平台和服务的基础设施,以及Databricks和您的公司协作管理的客户拥有的基础设施。
与许多企业数据库公司不同,Databricks并不强迫您为了使用该平台而将数据迁移到专有存储系统。bob体育客户端下载相反,您可以通过配置Databricks平台和您的云帐户之间的安全集成来配置Databricks工作空间,然后Databricks使用您帐户中的云资源部署临时计算集群,以在对象存储和您控制的其他集成服务中处理bob体育客户端下载和存储数据。
Unity Catalog进一步扩展了这种关系,允许您在Databricks中使用熟悉的SQL语法管理访问数据的权限。
Databricks已经部署了满足一些世界上最大和最具安全意识的公司的安全和网络需求的工作空间。Databricks使新用户很容易开始使用该平台,并消除了终端用户使用云基础设施的许多负担和顾虑,但不限制有经验的数据、操bob体育客户端下载作和安全团队所需的定制和控制。
Databricks是用来做什么的?
我们的客户使用Databricks处理、存储、清理、共享、分析、建模和货币化他们的数据集,提供从BI到机器学习的解决方案。可以使用Databricks平台构建跨越数据角色的许多bob体育客户端下载不同应用程序。完全接受lakehouse的客户可以利用我们的统一平台构建和部署数据工程工作流、机器学习模型和分析仪表板,为整个组织的创新和洞察提供动力。bob体育客户端下载
Databricks工作区为许多核心数据任务提供了用户界面,包括以下工具:
互动的笔记本
工作流调度器和经理
SQL编辑器和仪表板
数据摄取和治理
数据发现、注释和探索
计算管理
机器学习实验跟踪
ML模型服务
特色商店
使用Git进行源代码控制
除了工作区UI,您还可以通过以下工具以编程方式与Databricks交互:
REST API
CLI
起程拓殖
Databricks常用的用例有哪些?
Databricks上的用例与平台上处理的数据以及将数据作为工作核心部分的员工的许多角色一样多种多样。bob体育客户端下载以下用例强调了整个组织中的用户如何利用Databricks完成处理、存储和分析驱动关键业务功能和决策的数据所必需的任务。
构建企业数据湖屋
数据湖屋结合了数据仓库和数据湖的优势,以加速、简化和统一企业数据解决方案。数据工程师、数据科学家、分析师和生产系统都可以利用数据湖屋作为单一的真实来源,允许及时访问一致的数据,并降低构建、维护和同步许多分布式数据系统的复杂性。看到什么是Databricks Lakehouse?.
ETL和数据工程
无论您是生成仪表板还是为人工智能应用程序提供动力,数据工程都为以数据为中心的公司提供了支柱,确保数据可用、干净,并存储在数据模型中,以便有效地发现和使用。Databricks将Apache Spark的强大功能与Delta Lake和自定义工具结合在一起,提供无与伦比的ETL(提取、转换、加载)体验。您可以使用SQL、Python和Scala来组合ETL逻辑,然后只需单击几次就可以编排预定的作业部署。
Delta活动表智能管理数据集之间的依赖关系,并自动部署和扩展生产基础设施,以确保根据您的规范及时准确地交付数据,从而进一步简化ETL。
Databricks提供了许多自定义工具数据摄取,包括自动加载程序,这是一种高效且可伸缩的工具,用于增量地、幂等地将数据从云对象存储和数据湖加载到数据湖屋。
机器学习、人工智能和数据科学
Databricks机器学习扩展了平台的核心功能,提供了一套为数据科学家和机器学习工程师的需求量身定制的工具,包括bob体育客户端下载MLflow和Databricks运行时机器学习.看到Databricks机器学习指南.
数据仓库、分析和BI
Databricks将用户友好的用户界面与具有成本效益的计算资源和无限可扩展的、负担得起的存储相结合,为运行分析查询提供了强大的平台。bob体育客户端下载管理员将可伸缩计算集群配置为SQL仓库,允许最终用户执行查询,而不用担心在云中工作的任何复杂性。SQL用户可以使用SQL查询编辑器或者在笔记本上。笔记本电脑除了SQL,还支持Python、R和Scala,并允许用户嵌入它们可视化可以在指示板旁边的链接,图像,和评论写在markdown。
数据治理和安全数据共享
Unity Catalog为数据湖屋提供了统一的数据治理模型。云管理员为Unity Catalog配置和集成粗访问控制权限,然后Databricks管理员可以管理团队和个人的权限。通过用户友好的ui或SQL语法使用访问控制列表(acl)管理特权,使数据库管理员更容易保护对数据的访问,而不需要在云原生身份访问管理(IAM)和网络上扩展。
Unity Catalog使在云中运行安全分析变得简单,并提供了责任分工,有助于限制平台管理员和最终用户所需的再培训或技能提升。bob体育客户端下载看到什么是Unity Catalog?.
lakehouse使组织内的数据共享像授予对表或视图的查询访问一样简单。对于安全环境之外的共享,Unity Catalog提供了托管版本的三角洲分享.
DevOps、CI/CD和任务编排
ETL管道、ML模型和分析仪表板的开发生命周期都有各自独特的挑战。Databricks允许您的所有用户利用单个数据源,这减少了重复工作和不同步的报告。通过另外提供一套用于版本控制、自动化、调度、部署代码和生产资源的通用工具,您可以简化监视、编排和操作的开销。工作流调度Databricks笔记本,SQL查询和其他任意代码。回购让你同步Databricks项目与一些流行的git提供者。有关工具的完整概述,请参见开发人员工具和指导.
实时和流分析
Databricks利用Apache Spark结构化流处理流数据和增量数据更改。结构化流与Delta Lake紧密集成,这些技术为Delta Live Tables和Auto Loader提供了基础。看到什么是Apache Spark结构化流?.