卢卡Canali

数据工程师,欧洲核子研究中心

    卢卡与Hadoop数据工程师在CERN,火花,流和数据库服务。卢卡有20多年的经验设计、部署和支持企业级数据库和数据服务有特殊的兴趣性能故障诊断的方法和工具。卢卡活跃在开发和支持平台数据分析和ML的欧洲核子研究中心的社区,包括大型强子对撞机实验中bob体育客户端下载,加速器领域,欧洲核子研究中心。他喜欢与数据共享经验和知识社区在科学和工业。

    过去的会议

    2021年峰会 使用度量和监视Apache火花3 Kubernetes插件

    2021年5月26日,下午12:05 PT吗

    Apache引发的这次演讲将介绍一些实用的方面监控,重点测量Apache火花在云环境中运行,并旨在使Apache引发用户数据驱动的故障诊断性能。Apache火花指标允许提取重要信息在Apache引发的内部执行。另外,Apache火花3引入了一种改进的插件接口扩展指标收集第三方api。这是特别有用的云环境上运行Apache火花时,因为它允许测量操作系统和容器,如CPU使用率、I / O、内存使用情况,网络吞吐量,并测量相关指标云文件系统访问。参与者将学习如何利用这种类型的仪器来构建和运行一个Apache火花性能仪表板,它补充了现有火花WebUI先进的监控和故障诊断性能。

    在这个会话表:
    卢卡Canali、数据工程师,欧洲核子研究中心

    (daisna21-sessions-od)

    峰会的欧洲2020 有什么新的Apache在火花引发性能监视3.0吗

    2020年11月17日下午内PT

    Apache火花及其生态系统提供了许多仪器点,度量和监视工具,您可以使用它们来改进你的工作,理解你的性能引发工作负载使用可用的系统资源。火花3.0有几个重要的补充和改进监测系统。这个演讲将介绍新特性,回顾一些现成的解决方案来使用它们,并将提供的例子和反馈在CERN火花从生产使用的服务。主题将包括火花执行人指标细粒度的内存监控和扩展火花监控系统使用火花3.0插件。插件允许我们部署自定义指标延长火花监测系统测量,除此之外,I / O指标等云文件系统S3,操作系统指标和自定义外部库提供的指标。

    演讲者:卢卡Canali

    峰会的欧洲2019 性能故障诊断使用Apache火花指标

    2019年10月16日凌晨5点PT

    分布式数据处理系统的性能故障诊断是一项复杂的任务。Apache火花来救援,大量的指标和工具,您可以使用它们来理解和提高Spark-based应用程序的性能。您将了解可用的基于指标的仪器在Apache火花:遗嘱执行人任务指标和Dropwizard-based度量系统。讨论将介绍如何使用Apache Hadoop和火花服务在欧洲核子研究中心引发故障诊断性能的指标和测量生产工作负载。值得注意的是,讨论将包括如何部署性能仪表板火花工作负载和将涵盖sparkMeasure的使用,一个工具基于火花的侦听器接口。演讲者将讨论到目前为止的经验教训和改进可以期望在这一领域在Apache 3.0火花。

    您将学习欧洲核子研究中心是如何实现一个Apache Spark-based数据管道支持深度学习在高能物理研究工作(玫瑰)。玫瑰是一个数据密集型领域。例如,流经网络的数据量系统在大型强子对撞机实验目前1 PB / s的顺序,每25 ns与粒子碰撞事件发生。过滤应用之前存储数据供以后处理。

    改善在线事件过滤系统的准确性是关键的优化使用和成本计算和存储资源。小说的原型事件过滤系统基于神经网络分类器训练使用深最近被提出。本课程涵盖了如何实现数据管道训练神经网络分类器使用Apache火花和大数据解决方案的生态系统,与工具,集成软件,平台在欧洲核子研究中心的科学家和数据工程师熟悉。bob体育客户端下载数据准备和特性工程利用PySpark火花SQL和通过Jupyter笔记本运行的Python代码。

    我们将讨论关键集成和库,使Apache火花能够摄取使用熟知的数据格式存储的数据(根)和与欧洲核子研究中心存储和计算系统的集成。您将学习使用的神经网络模型,使用Keras API定义,模型训练如何在一个分布式的时尚火花集群使用BigDL和分析动物园。我们将讨论分布式培训的实施和结果,以及经验教训。

    峰会的欧洲2018 Apache火花为RDBMS从业者:我学会了如何停止忧虑和爱

    2018年10月3日凌晨5点PT

    这个演讲是关于分享经验和教训在设置和运行Apache火花服务在数据库内部集团在欧洲核子研究中心。它涵盖了许多方面的改变的例子从用例和项目在CERN Hadoop,火花,流和数据库服务。会谈的目的是开发人员、dba、服务经理和火花社区的成员是谁使用和/或调查“大数据”解决方案部署与关系数据库处理系统。讲话强调关键方面的Apache火花引发了欧洲核子研究中心的快速应用用例和数据处理的社区,包括这样一个事实,它提供了易于使用的api,统一在一个大的雨伞下,许多不同类型的数据处理工作负载从ETL、SQL报告毫升。

    火花还可以方便地集成多种数据源,从关系数据库和基于文件的格式。值得注意的是,火花很容易扩大数据管道和集群工作负载从笔记本电脑到大型硬件或在云上。还涉及一些要点讨论采用过程和学习曲线在Apache火花和相关社区的“大数据”工具开发人员和dba在欧洲核子研究中心与背景的关系数据库操作。

    会话标签:# SAISDev11