数据集市

免费试着砖

什么是数据集市?

一个数据集市是一个策划设计的数据库包括一组表为单个数据团队的具体需求,社区,或业务部门,如市场营销或工程部门。它通常是更小、更专注数据仓库,以及普遍存在一个组织的大型企业数据仓库的一个子集。数据集市通常用于分析、商业智能和报告。数据集市是进化的第一步在中央数据仓库和数据的物理现实湖泊。尼尔森提供他们的客户第一个数据集市在1970年代初为他们提供一种方式来存储信息数字化和提高他们的销售工作。

数据集市的特点

  • 通常构建和企业数据管理的团队,尽管他们可以由业务单位建立和维护中小企业有机地结合起来。
  • 业务集团数据维护数据集市,管家和最终用户只读访问——他们可以查询并查看表,但不能修改它们,为了阻止不需要的用户不小心删除或修改关键业务数据。
  • 通常使用一个维度模型和星型模式。
  • 包含一个策划的数据子集从大的数据仓库。数据是高度结构化的,洁净的,符合企业数据团队使其容易理解和查询。
  • 设计独特的一个特定的业务需要或用例。
  • 用户通常使用查询数据SQL命令

类型的数据集市:独立的数据集市,从属数据集市和混合数据集市

今天,有三种基本类型的数据集市:

  • 独立的数据集市不属于数据仓库,非常类似于尼尔森提供的原始数据集市。他们通常专注于一个领域的业务或主题领域。数据来源可以包括内部和外部来源。然后翻译,加工,加载到数据集市,它存储到需要的地方。
  • 依赖的数据集市是建在一个现有的数据仓库。使用自顶向下方法,支持所有数据的存储在一个集中的位置。然后一个明确定义的部分数据被选中为目的的研究。
  • 混合数据集市把数据从数据仓库和“其他”的数据源。这可能是有用的在各种情况下,包括提供临时集成一个新组,或产品,它已被添加到一个组织。混合数据集市非常适合多个数据库环境和提供快速实现转变。这些系统使数据清理容易,与较小的以数据为中心的应用程序工作得很好。

数据集市的好处

  • 单一来源的真理——数据集市可以作为单一来源的真理为特定业务,所以每个人都相同的事实和数据。
  • 简单——业务用户寻找可以访问策划数据集市的数据容易获得他们关心的数据,而不是通过遍历整个数据仓库和表联接在一起,从而得到所需的数据。

挑战与数据集市

企业数据仓库的创建与善意为所有企业的数据管理需求。但总是,你不能让每个人都满意,不同的业务单位有不同的数据需求和目标。所以部门复制和创造他们自己的数据集市(有时在企业IT的帮助下),目的是增加一个特定的数据仓库的主题领域,满足他们的自助分析、部门报告的需要。结果,随着时间的推移,数据集市可以成为数据仓库和影子拷贝数据,从企业的角度来看,但他们所做的服务部门的需要。当许多部门这样做——没有单一版本的真相。

和数据集市Lakehouse如何解决的挑战吗

Lakehouse解决上面提到的挑战将所有企业数据仓库和数据集市的一个平台,统一的安全性和治理,同时仍然提供不同的团队有自己的沙箱的灵活性。bob体育客户端下载因为任何数据集市或“增强复制”是由在同一Lakehouse平台所有的其他人——Lakehouse的数据目录发现,鉴于数据治理规则标签和使用数bob体育客户端下载据字典等,确保增强复制为发现,防止类似的副本。

构建您的下一个数据集市上砖SQL

免费试砖SQL

资源

    回到术语表
    Glossary-Overview-Sidebar

    了解驱动Lakehouse模式。

    现在注册