什么是数据仓库?
一个数据仓库是一个数据管理系统,将来自多个源的当前和历史数据存储在一个商业友好的方式更容易的见解和报告。数据仓库通常用于商业智能(BI)、报告和数据分析。
数据仓库能够快速、轻松地分析业务数据上传等操作系统的销售点系统、库存管理系统、营销或销售数据库。数据可以通过一个操作数据存储和数据清理之前,确保数据质量要求可以使用数据仓库的报告。
数据仓库是用来做什么的?
数据仓库中使用BI、报告和数据分析来提取和总结数据操作数据库。信息很难获得直接从事务数据库通过数据仓库可以获得。例如,管理想知道每个生成的总收入为每个产品类别销售人员每月。事务数据库可能不捕捉这些数据,但数据仓库。
在数据仓库ETL和英语教学
ETL(提取、转换、加载)和英语教学(提取、负载变换)是两种不同的转换数据的方法。数据工程师经常使用ETL、或提取-转换-装载,提取来自不同数据源的数据移动到数据仓库,在那里他们可以很容易地清理和结构。英语教学,另一方面,将数据加载到数据仓库在其原始格式,并清理和结构处理。
ETL通常是通过企业数据更集中工程团队申请公司数据清理和符合规则。英语教学意味着转换完成后来通常更多的项目/业务团队具体——使自助分析。
事务处理(OLTP)处理与分析(OLAP)
一个在线事务处理(OLTP)系统捕获和维护事务数据在数据库中。交易涉及个人数据库记录由多个字段或列。OLTP数据库通常用于应用程序(如网上银行、ERP系统,或库存管理,使快速更新行级数据处理几乎立即。
一个联机分析处理(OLAP)系统复杂查询适用于大量的历史数据,聚合来自OLTP数据库和其他数据源,数据挖掘,分析和商业智能项目。数据仓库是OLAP系统。OLAP数据库和数据仓库给分析师和决策者的能力使用自定义报表工具将数据转化为信息和行动。查询失败OLAP数据库不中断或延迟为客户事务处理,但它可以延迟或影响商业情报的准确性的见解。
数据仓库的好处
- 巩固,还可以从许多别的来源获得的数据;作为单点访问所有数据,而不是要求用户连接到数十甚至数百个人数据存储。
- 历史的智慧。数据仓库集成数据,还可以从许多别的来源显示历史趋势。
- 独立分析处理从事务数据库,提高两个系统的性能。
- 数据质量、一致性和准确性。数据仓库使用一组标准的语义数据,包括命名约定的一致性、代码为各种产品类型、语言、货币、等等。
挑战与数据仓库
- 不支持非结构化数据如图片、文本、物联网数据,或者像HL7消息传递框架,JSON和XML。传统数据仓库只能够储存清洁和高度结构化的数据,尽管Gartner估计多达80%的一个组织的非结构化的数据。组织想要使用他们的非结构化数据解锁AI找别家的力量。
- 不支持人工智能和机器学习。数据仓库是为通用DWH专用和优化工作负载包括历史报告,BI和查询,他们从来没有为机器学习或旨在支持工作负载而设计的。
- SQL-only——dwh通常提供不支持Python或R,应用程序开发人员的语言选择,机器学习数据科学家和工程师。
- 重复的数据——许多企业数据仓库和专业知识或(部门)数据集市除了数据湖,导致重复的数据,大量的冗余的ETL,和任何一个真理的源泉。
- 很难保持同步——将两份湖之间的数据同步和仓库增加了复杂性和脆弱性,很难管理。数据漂移可能导致不一致的报告和故障分析。
- 关闭,专有格式增加厂商锁定——大多数企业数据仓库使用自己的私有数据格式,而不是基于开源和开放标准格式。bob下载地址这增加了厂商锁定,很难或不可能与其他工具来分析您的数据,并使其更加难以迁移数据。
- 昂贵的——商业数据仓库收你存储你的数据,并分析它。存储和计算成本因此仍然紧密耦合在一起。分离的计算和存储lakehouse意味着你可以根据需要独立的规模。
lakehouses如何解决这些挑战
Lakehouse架构专门解决这些挑战,以提供最好的两个数据湖泊和仓库。看到一个开放的价值lakehouse建筑砖。
砖Lakehouse数据仓库
建立一个成功的lakehouse,组织已经转向三角洲湖,一个开源bob下载地址、开放格式数据管理和治理层相结合的最好的两个数据湖泊和数据仓库。砖Lakehouse平台使用三角洲湖给你:bob体育客户端下载
- 世界纪录湖经济数据仓库性能数据。
- Serverless SQL计算删除基础设施管理的必要性。
- 无缝集成的现代数据堆栈,如印度生物技术部,画面,PowerBI, Fivetran摄取,就地查询和转换数据。
- 一流的SQL开发经验为每个从业者与ansi SQL支持跨组织的数据。
- 细粒度的治理与数据沿袭,表/行级标签,基于角色的访问控制等等。