建立可靠的数据大规模湖泊三角洲湖续

大多数从业人员应对数据可靠性问题的克星——他们的存在。特别是数据工程师,努力设计、部署和性能的方式提供可靠的数据,以便组织可以充分利用他们的有价值的企业数据资产。

三角洲湖是一个开源存储层,给Apache火花™和大数据带来ACID事务工作负载。建立在开放标准,三角洲湖采用协同设计计算和存储和兼容引发的API。权力高数据可靠性和查询性能支持大数据用例,从批处理和流摄食、快速交互式查询机器学习。在本教程中我们将讨论现代数据工程的要求,数据工程师所面临的挑战时,数据可靠性和性能以及三角洲湖如何帮助。通过演讲、代码示例和笔记本电脑,我们将解释这些挑战和三角洲湖的使用来解决这些问题。你会带走的理解如何应用这一创新你的数据架构和你可以获得的好处。

本教程将教师指导和实践交互式会话。说明如何获得教程材料将在课堂上介绍。

你将学习:

  • 理解数据可靠性的关键挑战
  • 湖泊三角洲湖带来了可靠性数据规模如何
  • 了解三角洲湖适合一个Apache火花™环境
  • 如何使用三角洲湖实现数据可靠性的改进

先决条件

  • 充足的笔记本电脑(8-16GB内存)Chrome和Firefox
  • 登记,砖Community Edition

试着砖
看到更多的火花+人工智能峰会欧洲2019个视频


«回来
安德烈亚斯•诺伊曼
关于Andreas诺伊曼

安德烈亚斯•诺伊曼砖是一个软件工程师,他关注的是结构化流和三角洲湖。他在谷歌之前构建的大数据系统,桶形数据,Yahoo !和IBM。Andreas持有特里尔大学计算机科学博士学位,德国。

关于如来佛Das

如来佛Das是一个Apache火花提交者和PMC的一员。他背后的领先开发商火花流,目前开发结构化流。以前,他是一个研究生在加州大学伯克利分校AMPLab,他在那里研究关于数据中心框架和网络和斯科特Shenker离子斯托伊卡。

关于成员Mukul没吃

成员Mukul砖没吃是一个软件工程师在三角洲湖。成员Mukul收到了他的废话从加州大学伯克利分校电气工程和计算机科学以及成员Mukul从事微软Office365加入砖之前。