尼克·彭特里斯首席工程师在IBM开源数据中心与人工智能技术(CODAIT),他工作在机器学习。以前,他创办了Graphflow,机器学习创业重点建议。他也曾在高盛(Goldman Sachs)、认知匹配,和Mxit公司——。他是一个Apache火花项目的提交者和PMC成员的作者与火花“机器学习”。尼克是热衷于商业重点结合机器学习和尖端技术构建智能系统,从数据中学习增加业务价值。
尼克已经在30多个会议、在线研讨会、聚会和世界各地的其他活动包括许多以前的火花峰会。
一个典型的机器学习管道开始于一系列的预处理步骤实验,优化和model-tuning,最后部署。Jupyter笔记本已经成为广受欢迎的工具,数据科学家和其他机器学习实践者探索和实验作为工作流的一部分,由于他们所提供的灵活性和交互性。然而,随着笔记本电脑通常是一个挑战从实验阶段创建一个健壮的、模块化的生产级端到端和人工智能管道。
Elyra是一组开源,以人工智能为中心扩展JupyterLab。Elyra提供了一个可视化编辑器来构建notebook-based管道,简化了多个笔记本到批处理作业的转换或工作流。这些工作流可以同时在本地执行(在实验阶段)和通过Kubeflow Kubernetes管道生产部署。这样,Elyra结合笔记本和JupyterLab的灵活性和易用性,与产品级质量Kubeflow(和未来潜在的其他Kubernetes-based编制平台)。bob体育客户端下载
在这个演讲我将介绍Elyra及其功能,然后给一个深潜水Elyra管道的编辑器和底层的管道执行力学,显示演示使用Elyra构造端到端分析和机器学习管道。我还将探索如何集成和扩展model-tuning以及通过Kubeflow服务部署。
演讲者:尼克彭特里斯
在过去的几年里,深度学习取得了巨大的成功在一个广泛的领域,包括计算机视觉、人工智能、语音识别、自然语言处理和强化学习。然而,良好的性能带来了巨大的计算成本。这使得扩展培训贵,但是一个更相关的问题是推理,特别是对于实时应用程序(运行时延时是至关重要的)和边缘设备(计算和存储资源有限)。这个演讲将探索常见技术和新兴的进步来处理这些挑战,包括批处理的最佳实践;量化交易和其他方法计算成本在训练和推理性能;架构优化和图形处理方法。
深入学习模型通常被视为完全独立,解放从业者的负担工程数据处理和特征。然而,在大多数真实的人工智能应用程序,这些模型也同样复杂的要求,数据预处理、特征提取和转换为传统ML模式。任何有价值的用例需要护理,以确保没有模型斜之间存在训练时间数据管道和inference-time数据管道。
这不仅仅是理论——小差异或错误很难发现但能产生戏剧性的影响已部署的解决方案的性能和功效。尽管如此,目前有几个被广泛接受,标准的解决方案,使简单的端到端深度学习管道生产部署。最近,打开神经网络交易所(ONNX)表示深度学习模型的标准出现了一种标准化的格式。
虽然这是有用的为代表的核心模型推理阶段,我们需要进一步包含部署的端到端管道。在这个演讲我将介绍ONNX出口深度学习计算图表,以及ONNX-ML组件规范的出口“传统”毫升模型以及常见的特征提取、数据转换和后处理步骤。
我将介绍如何使用ONNX和出口国库为通用框架日益增长的生态系统(包括TensorFlow、PyTorch Keras, scikit-learn现在Apache SparkML)部署完整的深度学习管道。
最后,我将探讨这些不同的处理,结合最佳实践出口国工具包,以及突出的差距,问题和缺失的片段被考虑,仍然需要解决。
持续集成和部署已成为越来越多的软件开发标准和惯例。然而,这样做对于机器学习模型和应用程序引入了许多挑战。我们不仅需要考虑标准代码质量和集成测试,但是我们如何最好的说明模型性能指标的变化来自更改代码,部署框架或机制,预处理和后处理步骤,数据的变化,更不用说核心深度学习模型本身?
此外,深度学习提出了特别的挑战:
*模型大小往往是非常大的训练,把大量的时间和资源
*模型往往更难以理解和解释使它更难以调试的问题
*输入深度学习往往不同于所涉及的表格数据最传统的机器学习模型
*模型格式,框架和先进的模型和体系结构本身变化非常迅速
*通常许多不同的工具组合来创建完整的端到端管道培训和部署,使它更难塞在一起这些组件和跟踪问题。
我们还需要考虑变更的影响更广泛的方面,如模型的偏见,公平,健壮性和explainability。随着时间的推移,我们需要跟踪所有这些在一个标准的,可重复的方式。这个演讲探索最佳实践来处理这些无数的挑战创造一个标准化的、自动化的、可重复的管道深度学习的持续部署模型和管道。我将说明这个工作我们是免费和开源的IBM模型中进行资产交换。
在过去的几年里,RNNs取得了显著成功建模时间序列和序列数据,特别是在演讲中,语言和文本域。最近,这些技术已经开始应用于基于会话的推荐任务,非常不错的效果。
这个演讲探索这一领域的最新研究进展,以及实际应用。我将概述RNNs,涵盖常见的体系结构和应用程序,之前深入RNNs基于会话的建议。我将特别注意常见的个性化固有的挑战任务和所需的具体调整模型和优化技术的成功。
会话标签:# SAISDD1
应用深度学习的流行版本是,你把一个开源或研究模型,训练它在原始数据和部署生成的模型作为一个完全独立的工件。然而,现实情况要复杂的多。训练阶段,用户面临一系列挑战,包括处理不同深度学习框架、硬件需求和配置,更不用说代码质量,一致性和包装。部署阶段,他们面临另一组挑战从自定义数据预处理和后期处理,要求跨框架不一致,缺乏标准化服务api。IBM代码模型的目标资产交换(MAX)移除这些开发者获得进入壁垒,开源深度学习模型的训练和部署企业应用程序。在构建交换,我们遇到这些挑战和更多。
训练阶段,我们的目标是利用深度学习的织物(FfDL: https://github.com/IBM/FfDL),一个开源项目提供框架独立培训Kubernetes深度学习模型。部署阶段,马克斯•提供基于容器的文物完全独立的模型,包括端到端深度学习预测管道和暴露一个标准化的REST API。
这个演讲探索建筑最大的过程中,遇到的挑战和问题,解决方案开发,一路上的经验教训和未来cross-framework和最佳实践,标准化的深度学习模型训练和部署。
会话标签:# SAISDL6
在过去的几年里,深度学习取得了重大成功在广泛的领域,包括计算机视觉,人工智能,演讲,NLP和强化学习。然而,深度学习在推荐系统,直到最近,收到的关注相对较少。这个会谈探讨最新进展在这一领域的研究和实践。我将解释如何应用于推荐设置,深度学习架构处理上下文数据,信息,和基于时间的模型,并比较其他尖端上下文推荐模型的深度学习方法,最后探讨可伸缩性问题和模型服务的挑战。
会话标签:# AISAIS13
调优火花毫升模型与交叉验证可以极其计算昂贵的过程。随着hyperparameter组合的数量增加,那么被评估的数量模型。火花的默认配置是一个一个来评估这些模型选择表现最好的。当运行这个过程和大量的模型,如果模型的训练和评估不充分利用可用的集群资源,浪费将会为每个模型和复合导致长时间运行。
使模型并行性火花交叉验证,从火花2.3,将允许一个以上的模型训练和评估同时集群资源的更好利用。我们会在如何启用此设置火花,这将产生什么影响一个例子毫升管道和最佳实践要记住当使用这个特性。
此外,我们将讨论正在进行的工作,以减少所需的计算时,调优毫升管道通过消除多余的转换和智能缓存中间数据集。这可以结合模型的并行性,从而进一步减少交叉验证的运行时复杂的机器学习管道。
会话标签:# DS6SAIS
机器学习的普遍看法是,它从数据开始,结束于一个模型。在实际生产系统,传统的机器学习数据科学和工作流的数据准备、工程特点和模型选择,虽然重要,只是一个方面。一块关键的失踪的部署和管理模型,以及模型之间的集成创建和部署阶段。
这是特别具有挑战性的情况下部署Apache火花毫升管道进行低延迟得分。虽然MLlib DataFrame API是强大和优雅,比较适合许多实时预测的应用程序的需要,部分是因为它是紧密耦合的火花SQL运行时。在这个演讲,我将介绍便携式格式分析(PFA)便携、开放和标准化的数据部署科学管道和分析应用程序。
我还将介绍和评价Aardpfark、图书馆出口火花毫升PFA管道,以及比较和对比其他可用的选择包括PMML, MLeap ONNX和苹果的CoreML。
会话标签:# ML1SAIS
讲座将涵盖Graphflow如何使用火花实时推荐和客户智能平台。bob体育客户端下载
我们将介绍如何使用火花和MLlib过程和分析客户行为数据建议和预测分析模型。我们还将概述使用火花和鲨鱼的电力数据聚合和分析客户的洞察力和前端数据可视化应用程序。