让斯蒂芬

Data Mechanics首席执行官兼联合创始人

    Jean-Yves是Data Mechanics的联合创始人兼首席执行官,Data Mechanics是一个云原生spark平台,可在AWS、GCPbob体育客户端下载和Azure上使用。他们的使命是使Spark对开发人员更友好,对数据工程团队更具成本效益。他们是开源项目的积极贡献者,如Spark-on-Kubernetes操作器和Data Mechanics Delight。

    在加入Data Mechanics之前,Jean-Yves是Databricks的软件工程师,在那里他领导Spark基础设施团队。

    过去的会议

    2021年峰会 Delight:改进的Apache Spark UI,免费,跨平台bob体育客户端下载

    2021年5月28日太平洋时间上午11:40

    Delight (https://www.datamechanics.co/delight)是一个免费的跨平台Apache Spabob体育客户端下载rk监控仪表板,它在同一时间轴上显示系统指标(CPU使用率,内存使用率)以及Spark信息(作业,阶段,任务)。当涉及到Spark应用程序的故障排除和了解其性能瓶颈时,Delight是Spark UI的一个很好的补充。它可以在任何Spark平台上自由运行(无论是开源的还是商业的,在云中还是bob体育客户端下载在内部)。您可以使用开源Spark代理(https://github.com/datamechanics/delight)安装它。

    在这个环节中,Data Mechanics的联合创始人将带您通过Delight在现实世界的数据工程管道上进行性能故障排除。您将看到Delight和Spark UI如何共同帮助您发现应用程序的性能瓶颈,以及如何使用这些见解使应用程序更具成本效益和稳定性。

    在本节中请注意:
    Jean-Yves Stephan, Data Mechanics首席执行官兼联合创始人
    Julien Dumazert, Data Mechanics首席技术官和联合创始人

    (daisna21-sessions-od)

    2020年欧洲峰会 在Kubernetes上开始使用Apache Spark

    太平洋时间2020年11月17日下午04:00

    社区采用Kubernetes(而不是YARN)作为Apache Spark的调度器,自Spark 3.0版本以来一直在加速改进。公司选择在Kubernetes上运行Spark,以便在整个堆栈中使用单一的云无关技术,并受益于改进的并发工作负载隔离和资源共享。在这次演讲中,Data Mechanics(一个由Kubernetes提供支持的无服务器Spark平台)的创始人将展示如何在Kubbob体育客户端下载ernetes上轻松开始使用Spark。

    我们将介绍一个构建、部署和维护端到端数据管道的端到端示例。这将是一个代码丰富的会议,有许多技巧来帮助初学者和中级Spark开发人员在Kubernetes上成功地使用Spark,并在数据机制平台上运行现场演示。bob体育客户端下载

    包括主题:
    -设置环境(数据访问、节点池)
    -调整应用程序的大小(pod大小,动态分配)
    -通过关键磁盘和I/O优化提升您的性能
    监控您的应用程序日志和调试和报告的指标

    发言人:Jean-Yves Stephan和Julien Dumazert

    2020年峰会 在Kubernetes上运行Apache Spark:最佳实践和缺陷

    2020年6月23日下午05:00 PT

    自从Apache Spark 2.3中添加了最初的支持以来,在Kubernetes上运行Spark越来越受欢迎。原因包括在Kubernetes上并发Spark应用程序的隔离和资源共享的改善,以及为公司的整个技术堆栈使用同质化和云原生基础设施的好处。但是,在Kubernetes上以稳定、性能、成本效益和安全的方式运行Spark也面临着具体的挑战。在这次演讲中,JY和Julien将回顾在构建Data Mechanics(一个由Kubernetes支持的无服务器Spark平台)时获得的经验教训。bob体育客户端下载

    主题包括:

    • Spark在Kubernetes上的核心概念和设置
    • 性能和高效资源共享的配置技巧
    • Spark-app级动态分配和集群级自动伸缩
    • Kubernetes数据I/O性能的特殊性
    • 监视和安全最佳实践
    • 限制和计划的未来工作
    2019年欧洲峰会 如何自动化Apache Spark的性能调优

    2019年10月15日下午05:00 PT

    Spark使得编写大数据管道比以前容易得多。但是,随着时间的推移,在生产环境中维护性能和稳定的数据管道需要付出大量的努力。我是否为应用程序选择了正确的基础结构类型?我是否正确设置了Spark配置?随着时间的推移,我的应用程序能够在摄入的数据量不断增长的情况下保持平稳运行吗?如何确保我的管道总是按时完成并满足SLA?

    这些问题即使对于少数几个工作也不容易回答,当您扩展到数十个、数百个或数千个工作时,这些维护工作可能会成为一个真正的负担。本次演讲将回顾我们发现的最有用的信息和参数,以及那些想要自动化这项工作的工程师可用的不同选项,从开源工具到数据平台或第三方(如data Mechanics平台)提供的托管服务。bob体育客户端下载