数据集市

回到术语表

什么是数据集市?

一个数据集市是一个精心策划的数据库,包括一组表,旨在满足单个数据团队、社区或业务线(如营销或工程部门)的特定需求。它通常比数据仓库更小,更集中,通常作为组织的大型企业数据仓库的子集存在。数据集市通常用于分析、商业智能和报告。数据集市是中央数据仓库和数据湖物理现实的第一步进化。ACNielsen在20世纪70年代初为他们的客户提供了第一个数据集市,为他们提供了一种数字存储信息的方式,并提高了他们的销售业绩。

数据集市的特点

  • 典型的建造和由企业数据团队管理,尽管它们也可以由业务单元中小企业有机地构建和维护。
  • 业务组数据管理员维护数据集市,最终用户维护数据集市只读访问-他们可以查询和查看表,但不能修改表,以防止技术不熟练的用户意外删除或修改关键业务数据。
  • 通常使用维度模型和星型模式。
  • 包含一个数据的子集来自更大的数据仓库。数据是高度结构化的,企业数据团队已经对其进行了清理和统一,使其易于理解和查询。
  • 围绕独特的设计特定业务线的需求或者用例。
  • 用户通常使用SQL命令

数据集市的类型:独立数据集市、依赖数据集市和混合数据集市

今天,有三种基本类型的数据集市:
  • 独立的数据集市不是数据仓库的一部分,与ACNielsen提供的原始数据集市非常相似。他们通常专注于一个业务领域或主题领域。数据源可以包括外部数据源和内部数据源。然后将其翻译、处理并加载到数据集市中,在需要时将其存储在那里。
  • 依赖数据集市内置于现有数据仓库中。使用自顶向下的方法,支持将所有数据存储在一个集中的位置。然后选择一段定义明确的数据用于研究目的。
  • 混合数据市场结合来自数据仓库和“其他”数据源的数据。这在各种情况下都很有用,包括提供与已添加到组织中的新组或产品的临时集成。混合数据集市非常适合于多个数据库环境,并提供快速的实现周转。这些系统使数据清理变得容易,并且可以很好地用于较小的以数据为中心的应用程序。

数据集市的好处

  • 真相来源单一-数据集市可以作为特定业务的单一真相来源,因此每个人都在使用相同的事实和数据。
  • 简单寻找数据的业务用户可以访问托管数据集市,方便地访问他们所关心的数据,而不必费力地穿过整个数据仓库并将表连接在一起以获得所需的数据。

数据集市的挑战

创建企业数据仓库的初衷是为了满足企业的所有数据管理需求。但总不能让每个人都满意,因为不同的业务部门有不同的数据需求和目标。因此,各部门复制并创建自己的数据集市(有时在企业IT的帮助下),目的是增强特定数据仓库的主题区域,以满足他们的自助服务分析和部门报告需求。因此,随着时间的推移,数据集市可能成为数据竖井和数据的影子副本(从企业的角度来看),但它们确实很好地满足了部门的需求。当许多部门都这样做的时候,事实并没有单一的版本。

莱克豪斯如何解决数据市场的挑战

Lakehouse通过将所有企业数据仓库和数据集市放在一个平台上,并具有统一的安全性和治理,解决了上述挑战,同时仍然为不同的团队提供了拥有自己沙箱的灵活性。bob体育客户端下载由于任何数据集市或“增强副本”都是在与其他所有数据集市相同的Lakehouse平台上制作的——Lakehouse的数据目录发现了这一点,并考bob体育客户端下载虑到数据治理规则,如标记和使用数据字典等,它确保了增强副本被所有人发现——防止类似的重复副本。

在Databricks SQL上构建您的下一个数据集市

试试Databricks SQL免费

资源


回到术语表