金正日Hammar

软件工程师,逻辑时钟AB

    Kim Hammar是logic Clocks AB的软件工程师,也是Hopsworks功能商店的主要开发者,这是世界上第一个开源功能商店。他于2018年获得KTH分布式系统硕士学位。他曾在爱立信(Ericsson)担任工程师,在KTH皇家理工学院(KTH Royal Institute of Technology)担任研究员,以及好事达(Allstate)的数据科学家。

    过去的会议

    2019年欧洲峰会 端到端Spark/TensorFlow/PyTorch管道与Databricks Delta

    2019年10月16日下午05:00 PT

    Hopsworks是一个开源数据平台,可用于开发和操作水平可扩展的bob体育客户端下载机器学习管道。我们管道的一个关键部分是世界上第一个基于Apache Hive的开源特征存储,它作为特征的数据仓库,在数据工程师(用Spark (Scala或Python)编写特征工程代码)和数据科学家(从特征存储中选择特征为模型生成训练/测试数据)之间提供了一个自然的API。在这次演讲中,我们将讨论Databricks Delta如何解决构建特征工程管道(为我们的特征存储提供支持)和管理特征数据本身的几个关键挑战。

    首先,我们将展示如何在Databricks Delta中使用期望和模式强制来提供数据验证,确保特征数据没有丢失或无效的值,从而对模型训练产生负面影响。其次,Databricks Delta中的时间旅行可用于为训练/测试数据集提供版本管理和实验再现性。也就是说,给定一个模型,您可以使用用于训练该模型的相同版本的数据重新运行该模型的训练实验。

    我们还将讨论将这项工作提高到一个新的水平所需的下一步步骤。最后,我们将进行一个现场演示,展示如何在Hopsworks上使用Spark在端到端ML管道中使用Delta。