介绍数据湖泊

数据湖泊提供一个完整的和权威的数据存储,数据分析,商业智能和机器学习

介绍数据湖泊

湖是什么数据?

一个数据湖是一个中央位置,拥有大量数据在本土,原始格式。分层数据仓库相比,在文件或文件夹存储数据,数据使用一个湖平面结构和对象存储来存储数据。对象存储存储数据与元数据标签和一个独特的标识符,这使得它更容易在区域定位和检索数据,并提高了性能。通过利用廉价的对象存储和开放格式,数据湖泊使许多应用程序数据的利用。

数据湖泊开发针对数据仓库的局限性。为企业提供高性能和可伸缩的数据仓库分析,它们是昂贵的和专有的和无法处理现代用例大多数公司正在寻找地址。数据湖泊通常用来巩固一个组织所有的数据在一个中央位置,可以保存”,“而不需要征收模式(即。,数据是如何组织的正式结构)像一个数据仓库。细化过程的所有阶段的数据可以存储在一个数据湖:原始数据可摄入和存储与组织的结构,表格数据资源(如数据库表),以及中间数据表生成的精炼过程中的原始数据。与大多数数据库和数据仓库,数据湖泊可以处理所有数据类型——包括非结构化和半结构化数据像图片,视频、音频和文件——这是今天的机器学习和高级分析的关键用例。

为什么你会使用数据湖吗?

首先,湖泊是开放的数据格式,所以用户避免锁定专有系统像一个数据仓库,已成为越来越重要的在现代数据体系结构。数据湖泊也高度耐用、低成本,因为他们的规模和杠杆对象存储的能力。此外,先进的分析和机器学习对非结构化数据的一些最今天企业战略重点。唯一能够摄取各种格式的原始数据(结构化、非结构化、半结构化),连同提到的其他好处,使数据存储的数据湖明确的选择。

当适当的架构,数据湖泊启用的能力:

数据湖挑战

尽管他们的优点,但许多数据的承诺湖泊没有意识到由于缺少一些关键功能:不支持事务,没有执行数据质量或治理,可怜的性能优化。因此,大多数的企业已经成为数据中的数据湖泊沼泽。

由于这些原因,传统数据湖本身不足以满足企业的需要,寻求创新,这也是为什么企业经常在复杂的体系结构,孤立的数据在不同的存储系统:数据仓库,数据库和其他存储系统在整个企业。简化架构的统一所有数据在数据湖是第一步的公司渴望利用机器学习和数据分析来赢得未来十年。

lakehouse如何解决这些挑战

答案数据湖泊是lakehouse的挑战,这在上面添加一个事务性存储层。lakehouse使用类似的数据结构和数据管理功能的数据仓库,而是直接运行在云数据湖泊。最终,lakehouse允许传统分析,数据科学和机器学习在同一个系统共存,所有在一个开放的格式。

lakehouse允许范围广泛的新的跨功能的企业级分析用例,BI和机器学习项目,可以释放巨大的商业价值。数据分析师能收获丰富的见解通过湖使用SQL查询数据,数据科学家可以加入和丰富的数据集生成毫升模型与更大的精度,数据工程师可以构建自动化ETL管道,和商业情报分析人员可以创建视觉仪表盘和报表工具比以前更快和更容易。这些用例都可以同时进行数据湖,没有提升和改变数据,尽管新数据流。

建立一个lakehouse三角洲湖

lakehouse建立成功,组织必须利用三角洲湖,开放格式数据管理和治理层相结合的最好的两个湖泊和数据仓库的数据。各行业,企业利用三角洲湖电力合作提供了一个可靠的、单一来源的真理。通过交付质量、可靠性、安全性和性能数据湖上——流和批处理操作——三角洲湖消除数据孤岛,使分析整个企业的访问。三角洲湖,客户可以建立一个有成本效益的,高度可伸缩的lakehouse,消除数据孤岛,为终端用户提供自我分析。

BOB低频彩了解更多关于三角洲湖

湖泊与数据lakehouses与数据仓库

	数据湖	数据lakehouse	数据仓库
类型的数据	所有类型:结构化数据、半结构化数据、非结构化(生的)数据	所有类型:结构化数据、半结构化数据、非结构化(生的)数据	结构化数据只
成本	美元	美元	$ $ $
格式	开放格式	开放格式	关闭,专有格式
可伸缩性	尺度持有任何以低成本的数据量,无论类型	尺度持有任何以低成本的数据量,无论类型	扩大成为指数由于供应商成本更加昂贵
面向的用户	限制:数据科学家	机器学习统一:数据分析师、数据科学家,工程师	有限:数据分析师
可靠性	低质量数据沼泽	高质量的、可靠的数据	高质量的、可靠的数据
易用性	困难:探索大量原始数据可能很困难,没有工具来组织和目录数据	简单:为数据仓库的简单性和结构提供了更广泛的用例数据湖	简单:数据仓库的结构使得用户能够快速、轻松地访问数据报告和分析
性能	可怜的	高	高