布鲁克身上

导演,机器学习实践,砖

    布鲁克身上是导演,机器学习实践。她领导的一组数据的科学家们为客户开发大规模机器学习管道,以及教课程在分布式机器学习的最佳实践。她是一个作者学习的火花,第二版,co-instructor分布式计算的火花SQL Coursera课程,和搭档的数据酿造播客。她收到了一个女士在加州大学洛杉矶分校计算机科学关注分布式机器学习。她汉语说得很流利,喜欢骑自行车。

    看这个演讲者在数据+人工智能峰会2021

    过去的会议

    2021年峰会 关键提示:数据科学和机器学习

    2021年5月27日塔利班PT

    AI的追求是一个最大的优先级数据。周四上午的演讲将由砖创始人兼首席执行官阿里Ghodsi和覆盖数据科学的进步,机器学习,MLOps开源和砖Lakehouse的平台。bob下载地址bob体育客户端下载

    我们也会加入到数据来自麦当劳的领导人和微软,以及传奇比尔奈,科学家,工程师,喜剧演员和作家。

    2021年峰会 YOLO与数据驱动的软件意思

    2021年5月27日上午11 PT吗

    软件工程发展在某些最佳实践如版本控制代码,依赖管理、功能分支,等。然而,同样的数据没有翻译科学的最佳实践。数据科学家毫升管道的更新阶段需要了解的级联效应变化,这样他们的下游依赖性不最终陈旧的数据,或不必要的重新运行整个管道的端到端。当数据科学家合作,他们应该能够使用他们的同事,而不是计算的中间结果一切从头开始。

    这个演讲展示了如何把数据当作代码通过数据驱动的软件(DDS)的概念。这个概念,作为一个轻量级的和易于使用的python实现方案,解决了所有的问题上面提到的单用户和协作数据管道,和它完全lakehouse砖等建筑。实际上,它允许数据工程师和科学家去YOLO:意思你只加载数据一次,你永远不会重新计算现有的碎片。

    通过现场演示利用DDS,您将看到如何数据科学团队可以:

    • 集成数据和复杂的代码在代码或性能几乎没有开销
    • 构建完全可再生的数据管道
    • 协作数据产品与相同级别的缓解和速度,使用熟悉的软件工具,如git
    在这个会话表:
    布鲁克身上,机器学习实践,砖
    数据科学家蒂姆·亨特,荷兰银行(ABN AMRO)

    (daisna21-sessions-od)

    周三上午主题

    2020年11月17日下午内PT

    欢迎从阿里Ghodsi,砖


    项目禅:神谕的火花

    雷诺鑫
    联合创始人及首席架构师,砖

    在这个主题从雷诺鑫,贡献者Apache火花和PMC成员,我们将审查项目的状态和突出主要释放和超越社会发展十周年庆典。雷诺将审查最近的火花的3.0版本主要关注如何使其更容易使用,更快,更符合ANSI标准。与Python代表近70%的笔记本的命令,他会关注项目禅——社区的发展努力使火花更预言的。这包括开发工具的改善,API设计,错误处理,数据与数据科学家和工程师更有效率。


    演示:神谕的火花与真正的考拉

    Caryl Yuhas
    老经理、现场工程、砖


    Lakehouse的崛起

    阿里Ghodsi
    联合创始人兼首席执行官

    最初的创造者Apache火花,砖

    在决策支持数据仓库有悠久的历史和商业智能应用程序。但是,数据仓库是不适合处理非结构化、半结构化,和流数据常见的现代企业。这导致组织构建数据湖泊大约十年前的原始数据。但是,他们也缺乏重要的功能。需要一个更好的解决方案引发了lakehouse架构,实现类似的数据结构和数据管理功能在数据仓库中,直接在低成本存储用于数据的湖泊。

    本主题由砖CEO,阿里•Ghodsi解释了开源三角洲湖项目允许该行业实现lakehouse架构的全部潜力。bob下载地址另外,阿里将讨论新发布的SQL分析服务,允许用户运行传统的分析数据的湖上,而不是移动数据到数据仓库,在不牺牲性能,安全,或质量。该服务完成的愿景lakehouse架构允许数据湖是真理的单一来源的所有数据的工作量。


    讨论与表软件

    弗朗索瓦Ajenstat
    首席产品官表软件


    演示:SQL分析和Lakehouse架构

    布鲁克身上,
    机器学习实践中铅、砖


    SQL分析如何让Lakehouse快

    雷诺鑫
    联合创始人及首席架构师,砖

    在这个主题,雷诺鑫,砖的联合创始人和首席架构师,将探索如何SQL数据分析带来了新的性能水平湖泊为分析工作负载。传统上,数据与分析湖泊挣扎,因为他们难以实现快速查询性能和低延迟高用户并发性。雷诺将提供一个技术深潜水的砖是如何解决这些挑战。首先,δ引擎,砖的多态矢量化执行引擎,提供极快的单一查询吞吐量。第二,新的SQL伸缩SQL-optimized集群分析很容易匹配计算用户负载的能力。第三,在新的SQL优化分析端点减少所需的时间得到查询结果6 x。SQL分析,能够为用户提供数据仓库数据湖经济学的分析工作负载性能。


    讨论和彼得Boncz

    教授,sccp证照和阿姆斯特丹


    与联合利华

    Phinean伍德沃德
    的体系结构、信息和分析联合利华

    在这次演讲中,我们将讨论如何Lakehouse架构已经成为联合利华的信息管理基础设施的关键部分限制传统的企业数据仓库,并使敏捷访问数据和下游,需要更快的决策。因此,它正在帮助联合利华提供更高质量的预测在许多领域的业务,从而在AI在整个公司建立信任。


    为什么数据驱动下一个大流行应对

    马尔科姆·格拉德威尔
    畅销书作家、记者和播客主机

    想象一下一个数据驱动响应Covid-19大流行会看起来像——如果我们能留出政治和自我。获奖作家和记者Malcolm Gladwell讨论了从目前的危机中,我们可以学到的教训和数据和数据团队将如何解决世界难题的关键,包括未来的大流行疫情。他也揭示了至关重要的作用,数据团队每天都在他自己的工作。


    关闭

    阿里Ghodsi

    2020年峰会 火花+人工智能2020年峰会:周三上午主题演讲

    2020年6月23日凌晨5点PT

    阿里Ghodsi Lakehouse入门,δ(砖)——46:40湖
    马泰Zaharia——火花3.0,1.0(砖)——17:03考拉
    布鲁克身上——演示:考拉1.0,3.0(砖)——35:46火花
    雷诺鑫1:01:50——引入三角洲引擎(砖)
    Arik Fraimovich - &演示(砖)——1:27:25 Redash概述
    Vish萨勃拉曼尼亚-(星巴克)——1:39:50酿造数据规模


    实现数据的视觉Lakehouse
    阿里Ghodsi

    在决策支持数据仓库有悠久的历史和商业智能应用程序。但是,数据仓库是不适合处理非结构化、半结构化,和流数据常见的现代企业。这导致组织构建数据湖泊大约十年前的原始数据。但是,他们也缺乏重要的功能。需要一个更好的解决方案引发了lakehouse的数据,实现了类似的数据结构和数据管理功能在数据仓库中,直接在低成本存储用于数据的湖泊。

    本主题由砖CEO,阿里Ghodsi,解释了为什么开源三角洲湖项目的行业接近lakehouse实现全部潜能的数据,包括新功能bob下载地址在砖统一数据分析平台,极大地加速性能。bob体育客户端下载此外,阿里将宣布新的开源能力协同运行SQL查询数据,建立现场仪表盘,警bob下载地址报在重要更改方便所有数据团队分析和理解他们的数据。


    介绍Apache 3.0火花:
    回顾过去十年,期待下一个十年。
    马泰Zaharia和布鲁克身上

    在这个主题从马泰Zaharia,最初的创造者Apache火花,我们将突出主要社区发展与Apache火花3.0的发布引发更容易使用,更快,兼容更多的数据源和运行时环境。Apache火花3.0继续项目的最初目标,使数据处理更可以通过SQL和主要改进Python api和自动调优和优化功能,减少手动配置。今年也是十周年引发最初的开源版本中,我们会思考如何项目及其用户基数增加,以及如何引发周围的生态系统(例如考拉,三角洲湖和可bob下载地址视化工具)是发展大规模数据处理更简单和更强大。


    三角洲湖三角洲引擎:高性能查询引擎
    雷诺鑫


    星巴克是如何实现其“企业数据的使命”,使数据和ML规模和提供世界级的客户体验
    Vish萨勃拉曼尼亚

    星巴克确保我们所做的一切都是通过人类的镜头——从我们的承诺,世界上最高品质的咖啡,我们与我们的客户和社区的方式做生意负责。一个关键方面来确保这些世界级的客户体验数据。在星巴克这个演讲强调了企业数据分析任务,帮助决策的数据规模巨大。这包括一切从处理数据在pb级别受治理的过程,部署平台商业发展速度,使整个企业的毫升。bob体育客户端下载本阶段将详细说明星巴克如何建立了世界级的企业数据平台推动世界级的客户体验。bob体育客户端下载

    在这次演讲中,我们将突出主要的努力发生火花的生态系统。特别是,我们将深入的细节引发3.0中适应性和静态查询优化,使火花容易使用和更快的运行。我们还将演示如何在考拉的新功能,一个开源库,提供了Pandas-like API之上的火花,帮助数据科学家从数据bob下载地址中获得的见解更快。

    峰会的欧洲2019 考拉,熊猫在Apache引发欧盟

    2019年10月15日凌晨5点PT

    在本教程中我们将考拉,我们宣布一个新的开源项目的火花+人工智能峰会4月。bob下载地址考拉是一个开源的Python包实现大熊猫API之上的Apache火花,使熊猫API可伸缩的大数据。使用考拉,数据科学家可以从一台机器到分布式环境中,而不需要学习一个新的框架。

    我们将演示考拉的新功能最初版本以来,讨论其路线图,以及我们认为考拉可能成为大规模数据科学的标准API。

    你将学习:

    • 如何开始使用考拉
    • 容易从熊猫考拉在Apache火花
    • 相似性熊猫和考拉api DataFrame转换和工程特性
    • 单台机器熊猫和考拉的分布式环境

    先决条件:

    • 充足的笔记本电脑(8-16GB内存)Chrome和Firefox
    • Python 3和pip预装
    • 皮普从PyPI安装考拉
    • 登记,砖Community Edition
    • 考拉读文档
    峰会的欧洲2019 考拉,熊猫在Apache火花(继续)

    2019年10月15日凌晨5点PT

    在本教程中我们将考拉,我们宣布一个新的开源项目的火花+人工智能峰会4月。bob下载地址考拉是一个开源的Python包实现大熊猫API之上的Apache火花,使熊猫API可伸缩的大数据。使用考拉,数据科学家可以从一台机器到分布式环境中,而不需要学习一个新的框架。

    我们将演示考拉的新功能最初版本以来,讨论其路线图,以及我们认为考拉可能成为大规模数据科学的标准API。

    你将学习:

    • 如何开始使用考拉
    • 容易从熊猫考拉在Apache火花
    • 相似性熊猫和考拉api DataFrame转换和工程特性
    • 单台机器熊猫和考拉的分布式环境

    先决条件:

    • 充足的笔记本电脑(8-16GB内存)Chrome和Firefox
    • Python 3和pip预装
    • 皮普从PyPI安装考拉
    • 考拉读文档
    2019年峰会 考拉开源项目的官方声明bob下载地址

    2019年4月23日凌晨5点PT

    主题从火花+人工智能2019年峰会:雷诺鑫,砖,砖布鲁克•维尼希

    我们如何得到比好吗?利用NLP技巧,我们可以确定的一般情绪的句子,短语或一个段落的文本。我们可以挖掘社交数据的世界正在说什么。但是,你如何得到控制的因素,创造幸福吗?你怎么变成主动让终端用户快乐?聊天机器人,人类聊天,谈话是意味着我们使用来表达我们的想法。NLP是伟大的帮助我们处理和理解这些数据,但可以不足。

    在我们的会议中,我们将探索如何扩大NLP /情绪分析探讨人类和人类之间可能发生强烈的相互作用或人类和机器人。我们将介绍如何确定的事情努力提高质量以及如何使用这些数据来衡量有效性的聊天机器人。学习如何应用流行的NLP框架如NLTK,斯坦福CoreNLP和约翰·斯诺实验室NLP金融客户服务数据。探索可操作的技术来分析会话的见解。离开的理解如何影响你的客户的幸福。

    峰会的欧洲2018 三种深度学习框架的故事:TensorFlow, Keras & PyTorch

    2018年10月3日凌晨5点PT

    我们都知道他们说——数据越大,效果越好。但当数据变得非常大,你怎么我深学习框架,使用什么?这个演讲将调查中,一个开发者的角度来看,三个最受欢迎的深度学习frameworks-TensorFlow Keras, PyTorch-as以及何时使用它们的分布式实现。

    我们将比较代码样本每个框架和讨论他们与分布式计算集成引擎例如Apache火花(可以处理大量的数据)以及帮助你回答这样的问题:

    • 作为一名开发人员如何选择正确的深度学习框架?

    • 我想开发自己的模型或我应该使用一个现有的吗?

    • 如何罢工之间的平衡效率和控制通过低级api ?

    • 我应该选择什么语言?

    在这次会议中,我们将探索如何构建一个深度学习应用程序与Tensorflow Keras或PyTorch在30分钟内。这次会议之后,你将带走信心评估框架是最适合你。

    会话标签:# SAISDL3

    我们都知道他们说——数据越大,效果越好。但当数据变得非常大,你怎么使用它呢?这个演讲将介绍三种最受欢迎的深度学习框架:TensorFlow, Keras,更深的学习管道,当,在哪里以及如何使用它们。

    我们还将讨论他们与分布式计算的集成引擎例如Apache火花(可以处理大量数据),以及帮助你回答这样的问题:

    ——作为一名开发人员如何选择正确的深度学习框架给我吗?

    ——我想我应该开发自己的模型或采用现有的一个

    ——如何罢工之间的平衡效率和控制通过低级api ?

    在这次会议中,我们将展示你是多么容易建立一个图像分类器与Tensorflow Keras,深度学习管道在30分钟内。这次会议之后,你将带走信心评估框架最适合你,也许有更好的意义如何愚弄一个图像分类器!

    会话标签:# DL4SAIS

    布鲁克身上