吉姆·道林

首席执行官,逻辑时钟AB

    吉姆Dowling的首席执行官逻辑时钟和k皇家理工学院的副教授。他是首席架构师的开源Hopsworks平台,横向可伸缩的数据机器学习的平台,包括存储行业的第一个特征bob体育客户端下载。

    过去的会议

    2021年峰会 KFServing模型监视Apache火花和存储功能

    2021年5月26日,11点半PT吗

    近年来,MLOps出现带来DevOps过程机器学习(ML)开发过程,针对更多的自动化执行重复性任务和顺畅的工具之间的互操作性。生命周期中不同阶段的毫升、模型的监督监测涉及到模型的性能随着时间的推移,涉及的组合技术在四类:异常检测、数据漂移检测、explainability和敌对攻击。大多数现有模型监控工具遵循一个计划批处理方法或分析模型的性能使用孤立的推理数据的子集。然而,对于模型的连续监测,流处理平台显示几个优点,包括支持连续数据分析,可伸缩的处理大量的数据和一流的支持对于概念漂移检测窗口聚合有用。bob体育客户端下载

    在这次演讲中,我们提供了一个开源的平台服务和监控模型在基于Kubeflow规模的bob体育客户端下载模型为框架,KFServing, Hopsworks在线浓缩特性存储特征向量KFServing变压器,和火花,火花流作为生产监测模型的通用框架。

    我们也显示出火花流可以使用Hopsworks特性存储实现连续数据漂移检测功能的存储提供了统计特征值的分布训练,并引发流计算实时路况的统计模型,提醒如果现场交通的训练数据有很大区别。我们将包括现场演示平台的行动。bob体育客户端下载

    在这个会话表:
    首席执行官吉姆·道林、逻辑时钟AB
    哈维尔德拉鲁阿马丁内斯、数据科学家,逻辑时钟

    (daisna21-sessions-od)

    分布式深入学习提供了许多好处——更快的训练模型使用更多的gpu,在许多gpu并行hyperparameter优化,并行消融研究来帮助理解深层神经网络的行为和性能。3.0与火花,火花gpu来执行人,分布深度学习使用PySpark现在是可能的。然而,迭代模型开发PySpark提出的挑战——在开发机器上开始(笔记本电脑),然后重写他们在基于集群的环境中运行。

    在这次演讲中,我们将介绍一个开源框架,玛吉,可以写一次训练功能,可以在单台主机Python程序中重用和集群规模PySpark项目。培训功能与玛吉看起来像是我们提出最佳实践TensorFlow程序依赖项使用流行的编程习语(如函数来生成模型和数据批次)。在一个Jupyter笔记本,开发者可以混合香草Python代码开发和测试模型在他们的笔记本电脑PySpark-specific细胞时,可以运行一个集群使用PySpark内核是可用的,例如Sparkmagic。这种方式,深度学习模型的迭代开发成为可能,从笔记本到集群和回来,用干代码在训练函数,代码重用相同的所有阶段培训。

    2020年峰会 构建一个功能存储在Dataframes和Apache火花

    2020年6月23日凌晨5点PT

    存储功能允许注册机器学习(ML)特性,发现,和使用作为毫升管道的一部分,从而使其更容易转换和验证的训练数据送入机器学习系统。特色商店还可以启用工程训练和推理之间的特性一致,但要做到这一点,他们需要一个通用的数据处理平台。bob体育客户端下载开发的第一个特性商店,等超大型AI公司Uber, Airbnb,和Facebook,启用功能工程使用领域特定语言,提供工程领域抽象根据公司的特点。然而,通用工程特性存储需要一个通用特性,特征选择和特征转换平台。bob体育客户端下载

    在这次演讲中,我们描述我们建立了一个通用,开源特性存储毫升左右dataframes和Apache火花。我们将演示平台,Hopsworks,无缝地集成了Sparbob体育客户端下载k-based平台,如砖。存储的特性,我们将演示在砖从后端数据库数据和工程师工程师可以变换特性和数据湖泊,虽然数据科学家可以使用PySpark选择和特征转换成火车/测试数据(文件格式的选择。tfrecords、.npy .petastorm等)选择的文件系统(S3, HDFS)。我们还将展示的潜力考拉PySpark简化功能甚至工程。最后,我们将展示功能存储允许考虑端到端毫升管道工程特点和数据科学,每个阶段可以运行在不同的语调。

    峰会的欧洲2019 端到端火花/ TensorFlow PyTorch管道砖三角洲

    2019年10月16日凌晨5点PT

    Hopsworks是一个开源的数据平台,可用于开发和运营水平可扩展bob体育客户端下载的机器学习管道。管道的一个关键部分是世界上第一个开源特性存储,基于Apache蜂巢,作为数据仓库的特性,提供一个自然的API之间的数据工程师在火花——谁编写功能工程代码(在Scala中或Python)和数据科学家,他从特征选择特性存储为模型生成培训/测试数据。在这次演讲中,我们将讨论如何砖三角洲解决几个关键的挑战在构建特色工程管道给我们数据本身特性存储和管理功能。

    首先,我们将展示如何预期和模式执行在砖三角洲可用于提供数据验证,确保特性数据没有丢失或无效值,可能影响模型的训练。其次,穿越在砖三角洲可用于提供版本管理和实验reproducability培训/测试数据集。给定一个模型,您可以重新运行培训实验模型使用相同版本的数据用于训练模型。

    我们还将讨论接下来的步骤需要采取这项工作更上一层楼。最后,我们将执行现场演示,展示了三角洲可用于端到端毫升管道Hopsworks上使用火花。

    峰会的欧洲2019 异步Hyperparameter优化与Apache火花

    2019年10月15日凌晨5点PT

    在过去的两年里,开源Hopsworks平台使用火花分发hyperparameter为机器学习优化任务bob体育客户端下载。Hopsworks提供一些基本的优化器(gridsearch randomsearch,微分进化)提出的组合hyperparameters(试验)上运行同步并行执行人地图功能。然而,许多这些试验表现不佳,我们浪费大量的CPU硬件加速器和周期试验,可以停止早,释放的资源供其他试验。

    在这次演讲中,我们提出我们的玛吉,开源异步hyperparameter优化框架建立在火花透明地安排和管理hyperparameter试验,提高资源利用率,大大增加试验的数量可以在给定的时间内执行一个固定数量的资源。玛吉也用于支持并行消融研究使用火花。商业用户评估玛吉和我们将会报告他们看到的收益降低的时间找到好的hyperparameters和提高利用GPU硬件。最后,我们将执行Jupyter笔记本上现场演示,展示如何在现有PySpark应用程序集成玛吉。

    2019年峰会 ROCm和分布式火花,TensorFlow深度学习

    2019年4月24日凌晨5点PT

    ROCm, Radeon开放的生态系统,是一个开源软件在Linux上GPU计算的基础。使用MIOpen ROCm支持TensorFlow和PyTorch,图书馆深度学习的高度优化的GPU的例程。

    在这次演讲中,我们描述了Apache火花是一个关键的支持平台的分布式ROCm深度学习,它使不同深度学习框架在一个安全的端到bob体育客户端下载端嵌入火花工作流机器学习管道。我们将分析不同的框架将引发与Tensorflow ROCm,从Horovod HopsML Databrick项目的氢。

    我们还将研究令人惊讶的瓶颈的地方可以训练时表面模型(从对象存储到数据科学家本身),我们将调查的方式来绕开这些瓶颈。讨论将包括现场演示的培训和推理Tensorflow编写的应用程序嵌入到火花管道与ROCm在Hopsworks Jupyter笔记本。

    峰会的欧洲2018 Apache火花和TensorFlow分布式深度学习

    2018年10月3日凌晨5点PT

    方法,规模与可用的计算是人工智能的未来。分布深度学习就是这样一种方法,使数据科学家来大幅提高他们的效率(1)平行实验在许多设备(gpu / tpu /服务器)和(2)大幅减少训练时间分配一个网络在许多设备的培训。Apache火花是一个主要支持分布式深度学习的平台,它使不同深bob体育客户端下载度学习在火花嵌入式工作流框架在一个安全的端到端管道。在这次演讲中,我们检查不同方式Tensorflow可以包含在火花工作流构建分布式深度学习应用程序。

    我们将分析不同的集成框架与Tensorflow火花,从Horovod TensorflowOnSpark Databrick深度学习管道。我们也会看,你会发现瓶颈当训练模型(在你的框架,网络,gpu和与您的数据科学家)和如何绕过它们。我们将看到如何使用火花估计模型与火花/ TensorFlow执行hyper-parameter优化模型构架搜索,在火花执行人执行并行自动找到好的实验模型架构。

    讨论将包括现场演示的培训和推理Tensorflow编写的应用程序嵌入到火花管道在啤酒花Jupyter笔记本平台。bob体育客户端下载我们将展示如何调试应用程序使用UI和Tensorboard火花,和如何检查日志和监控培训。演示将啤酒花平台上运行,目前使用的超过450名研究人员和学生在瑞典bob体育客户端下载,以及在斯堪尼亚和爱立信等公司。

    会话标签:# SAISDL2

    峰会的欧洲2016 本地Spark-as-a-Service瑞典研究人员

    2016年的10月25日凌晨5点PT

    2016年4月以来,Spark-as-a-service可供研究人员在瑞典瑞典ICT中心数据中心在www.hops.site。火花的应用程序可以部署为工作(批处理或流)或直接从Apache飞艇编写和运行。我们的平bob体育客户端下载台是建立在啤酒花,分配一个新的Hadoop分布式元数据体系结构,包括前端称为Hopsworks支持基于项目的多租户和一流的数据集。火花应用程序是运行在一个项目上纱与小说性质引发应用程序集群计量和收费项目。项目也安全地相互隔绝,包括支持具体项目存储在HDFS和特定项目的卡夫卡的话题。具体项目的存储和卡夫卡的话题都是防止用户访问的不是项目的成员。研究人员在一个完全ui驱动的环境中工作平台是开源的。bob体育客户端下载在这次演讲中,我们将讨论建立一个计量版本的挑战Spark-as-a-Service纱,与Spark-on-YARN经验,和一些可能性Hopsworks打开为构建安全、多租户火花共享集群上的应用程序。我们还将讨论我们的用户的体验(超过100个用户2016年6月):他们是如何管理他们的纱和HDFS配额,为用户如何在项目之间共享数据集模式,我们的新的解决方案帮助研究人员调试和优化火花的应用程序。

    东2017年峰会 Spark-Streaming-as-a-Service卡夫卡和纱线

    2017年2月8日,内点PT

    2016年4月以来,Spark-as-a-service可供研究人员在瑞典瑞典ICT中心数据中心在www.hops.site。研究人员在一个完全ui驱动的环境中工作在一个平台上构建只有开源软件。bob体育客户端下载火花的应用程序可以部署为工作(批处理或流)或直接从Apache飞艇编写和运行。火花应用程序是运行在一个项目上纱与小说性质引发应用程序集群计量和收费项目。项目也安全地相互隔绝,包括支持具体项目的卡夫卡的话题。卡夫卡,话题不受访问的用户没有这个项目的成员。在这次演讲中,我们将讨论在构建多租户火花流媒体应用程序的挑战纱线计量和容易调试。我们展示如何使用麋鹿堆栈(Elasticsearch、Logstash Kibana)日志和调试运行引发流媒体应用程序如何使用Graphana和石墨为监测火花流媒体应用,以及用户如何调试和优化使用象博士火花流终止工作。我们还将讨论我们的用户的体验(超过120个用户2016年9月):他们是如何管理他们的卡夫卡主题和配额,模式的用户之间共享的主题项目,和我们的新颖的解决方案,帮助研究人员调试和优化火花的应用程序。
    最后,我们还将概述课程ID2223大规模学习更深的学习,在这60名学生,跑SparkML应用程序而设计的平台。bob体育客户端下载

    2017年峰会 Structured-Streaming-as-a-Service与卡夫卡、纱线和工具

    2017年6月5日凌晨5点PT

    自2016年中期以来,Spark-as-a-Service可供研究人员在瑞典www.hops.site中心冰数据中心。在这个会话中,道林将讨论在构建多租户火花结构化流媒体应用程序的挑战纱线计量和容易调试。平台,称bob体育客户端下载为Hopsworks,完全是在一个ui驱动环境只有开源软件构建的。学习如何使用麋鹿堆栈(Elasticsearch Logstash和Kibana)日志和调试运行引发流媒体应用程序;他们如何使用Grafana和InfluxDB监测火花流媒体应用程序;最后,Apache飞艇如何为终端用户提供交互式可视化和图表。本次会议还将展示如何引发应用程序运行在一个“项目”纱与小说性质引发应用程序集群计量和收费项目。项目是安全地相互隔绝,包括支持具体项目的卡夫卡的话题。卡夫卡,话题不受访问的用户没有这个项目的成员。此外,听到他们的用户的经验(超过150个用户2017年初):他们是如何管理他们的卡夫卡主题和配额,模式的用户之间共享的主题项目,和新颖的解决方案,帮助研究人员调试和优化火花的应用程序。听到他们的用户的经验(超过150个用户2017年初):他们是如何管理他们的卡夫卡主题和配额,模式的用户之间共享的主题项目,和新颖的解决方案,帮助研究人员调试和优化火花的应用程序。afka话题不受访问用户不是项目的成员。 We will also discuss the experiences of our users (over 150 users as of early 2017): how they manage their Kafka topics and quotas, patterns for how users share topics between projects, and our novel solutions for helping researchers debug and optimize Spark applications. Session hashtag: #SFexp5

    峰会的欧洲2017 Apache Spark-and-Tensorflow-as-a-Service

    2017年的10月25日凌晨5点PT

    在瑞典,从冰数据中心在www.hops.site上,我们提供人员Spark-as-a-Service和,最近,Tensorflow-as-a-Service啤酒花平台的一部分。bob体育客户端下载在这次演讲中,我们检查不同方式Tensorflow可以包含在火花工作流,从批处理结构化的流媒体应用程序流。我们将分析不同的集成框架与Tensorflow火花,从Tensorframes TensorflowOnSpark Databrick深度学习管道。我们介绍不同的编程模型支持,强调集群支持管理的重要性不同版本的python库代表用户。我们还将提供分享gpu集群管理支持,包括便和纱(在啤酒花Hadoop)。最后,我们将进行现场培训和示范推理TensorflowOnSpark应用程序可以读取数据写在Jupyter HDFS或者卡夫卡,火花转换数据,火车Tensorflow深层神经网络。我们将展示如何调试应用程序使用UI和Tensorboard火花,和如何检查日志和监控培训。
    会话标签:# EUai8