跳转到主要内容
公司博客上

解决世界难题越来越开源生态系统和砖bob下载地址

通过雷诺鑫

2020年1月23日 公司博客上

分享这篇文章

我们开始砖在2013年的一个小办公室在伯克利认为数据有可能解决世界难题。我们进入2020年全球组织拥有超过1000名员工和客户基础从二人创业财富10年代。

在这篇文章里,让我们花一些时间来回顾和反思我们取得了2019年在一起。我们将详细说明下列主题:解决世界上竞争最激烈的数据问题,新发展开源生态系统,以及我们如何与砖桥接两个平台增强。bob下载地址bob体育客户端下载

解决世界的问题最为严重

随着每年的流逝,我们遇到更多的用例,加强我们的信念,有效地利用数据是所有行业和学科产生深远的影响,我们感到自豪的部分在这个旅程。

成千上万的组织委托砖与关键任务的工作负载,并在各种会议上介绍了他们的进步传播最佳实践。2019年一些伟大的例子包括:

  • Regeneron能够分析基因组数据的大规模语料库,通过机器学习是能够识别基因组的一部分,负责慢性肝病。通过快速处理所有这些数据,他们现在能够创建和测试一个潜在拯救生命的药物对抗慢性肝病。继续这一势头,砖和Regeneron联手今年早些时候发射发光,一个开源工具包,用于大规模基因组分析。
  • 美国金融业监管局能够打击欺诈通过构建一个使用GraphFrames multi-petabyte图,然后使用机器学习来确定哪些部分图点击,操纵市场。
  • Quby:欧洲最大的能源使用数据集,包括海量物联网数据,Quby AI-powered发展所使用的产品每天成千上万的用户。学习更BOB低频彩多关于如何保护地球,Quby结账节约能源在家庭与一个统一的数据和人工智能方法

新发展开源生态系统bob下载地址

在欧盟2019年的阿姆斯特丹火花+人工智能峰会上,我们兴奋地预览Apache 3.0火花,即将到来的主要版本预计将在2020年发行,以及其他生态系统的主要项目:新发展开源生态系统:Apache 3.0火花,三bob下载地址角洲湖和考拉

日益增长的Apache引发的生态系统,包括火花3.0,三角洲湖和考拉

bob下载地址开源三角洲湖项目

三角洲湖是一个开源存储层,数据可靠性湖泊。三角洲湖提供ACID事务,可扩展的元数据处理,结合流媒体和批量数据处理。湖三角洲湖上运行你的现有数据,与Apache火花api完全兼容。

这个项目已经部署在成千上万的组织和流程每周艾字节的数据在数据,成为一个不可或缺的支柱和AI架构。超过75%的数据扫描数据砖平台是三角洲湖!bob体育客户端下载

在2019年早些时候,我们宣布开源三角洲湖项目如上所述火花+人工智能2019年峰会主题。,我们很快进展从0.1.0版(2019年4月)版本0.5.0(2019年12月)。

https://www.youtube.com/watch?v=R4f6SKOetB4

一些亮点包括:

更全面的博客列表,在线研讨会,聚会和活动,请参考三角洲湖通讯(2019年10月版)

构建数据密集的分析程序的三角洲湖教程

现在尝试三角洲湖,一个巨大的资源是火花+人工智能欧盟峰会2019教程:构建数据密集型分析程序三角洲湖

容易规模熊猫和考拉!

数据科学家喜欢熊猫,但工作需要规模,我们宣布考拉开源项目bob下载地址。考拉允许数据科学家很容易从小型数据集过渡到大数据通过提供一个熊猫API在Apache火花。

尽管这个项目开始于2019年初,考拉现在每天20000下载!

宣布考拉开源项目研讨会bob下载地址

中提到的博客怎么处女Hyperloop减少处理时间和考拉从小时分钟吗:

通过改变不到1%的大熊猫,我们能够运行代码与考拉和火花。我们可以减少执行时间超过10倍,从几个小时到几分钟,因为环境是可以水平伸缩,我们准备更多的数据。

简化机器学习工作流程

介绍了2018年,MLflow项目有能力跟踪指标、参数和工件作为实验的一部分,包模型和可再生的ML项目,模型部署到批处理或实时服务平台bob体育客户端下载

2019年,MLflow项目每月超过100万次的下载!

来帮助简化机器学习模型的工作流,在2019年秋季,我们介绍了MLflow模型注册表基于MLflow的现有能力为组织提供一个中心位置分享ML模式,合作将他们从实验测试和生产,并实现审批和管理工作流。

注册表marchitecture MLflow模型

砖统一分析平台bob体育亚洲版bob体育客户端下载

砖统一分析平台bob体育亚洲版bob体育客户端下载是大规模的云平台数据工bob体育客户端下载程和协作的科学数据。

2019年,创造了超过砖统一数据分析平台bob体育客户端下载一百万个虚拟机(vm)每一天!

我们扩大了砖平台与许多新功能!bob体育客户端下载完整的列表是相当广泛的,可以发现在砖平台发布说明(bob体育客户端下载AWS | Azure)。

优化存储

在砖运行时的6.0中,我们提高了融合,使本地文件api来显著提高读写速度以及支持文件大于2 GB。如果你需要更快和更可靠的读取和写入比如分布式模型训练,你会发现此增强功能特别有用。例如,正如这火花+人工智能峰会2019会话简化分布式TensorFlow培训快速图像分类在星巴克,一个简单的CNN模型的训练提高了10倍以上(从2.62分钟下降到14.65秒)。

砖池

最近,我们推出了砖池加快您的数据管道快速和规模集群。砖池是VM实例的缓存管理允许您实现减少集群开始和伸缩时间从几分钟到秒!

砖池是一个托管虚拟机实例的缓存可以减少集群开始和伸缩时间从几分钟到秒

2019年,我们介绍了更多的可用区域使用砖。截至2019年底,有29个地区中可用Azure和13个地区AWS有更多的未来2020年!

砖的运行时和砖运行时机器学习

2019年,砖运行时(DBR)发布的机器学习!截至2019年12月,有DBR 6.2 GA,DBR 6.2毫升,6.2 DBR基因组学。每个DBR版本测试并验证了不同版本的兼容性从而简化管理TensorFlow, TensorBoard, PyTorch, Horovod, XGBoost, MLflow, Hyperopt, MLeap等等。

砖与Conda运行时(β)简化了Python库和环境管理

为了简化Python库和环境管理,我们还介绍了砖与Conda运行时(β)我们的许多Python用户更倾向于管理与Conda Python环境和图书馆,迅速成为一个标准。Conda需要一个全面的方法来管理包通过启用:

  • 的创建和管理环境
  • 安装Python包
  • 容易可再生的环境
  • 与皮普的兼容性

砖与Conda运行时(AWS|Azure)提供了一个更新和优化列表默认包和一个灵活的Python环境对于高级用户需要最大限度的控制方案和环境。

自动日志MLflow管理

管理MLflow砖上提供的托管版本MLflow完全集成与砖的安全模型、互动空间和MLflow侧边栏砖企业版的和砖社区版

https://www.youtube.com/watch?v=DFn3hS-s7OA

管理MLflow数据科学家,现在更容易跟踪他们的机器学习培训为Apache火花MLlib Hyperopt, Keras, Tensorflow无需改变任何代码的训练。

增加机器学习与数据砖实验室的AutoML工具包

注意:砖实验室的AutoML工具包是一个实验室项目加速用例的砖统一的分析平台。bob体育亚洲版bob体育客户端下载

如前所述在引发欧洲2019 +人工智能峰会会议增加机器学习与数据砖实验室AutoML工具包,可以大大简化流程,评估和优化利用机器学习模型砖实验室AutoML工具包。使用AutoML工具包还允许您交付结果更快,因为它允许您自动化各种机器学习管道阶段。

砖实验室AutoML工具包可以显著简化构建的过程中,评估和优化机器学习模型

我们进一步简化了AutoML工具包通过释放AutoML FamilyRunner允许您测试的家庭不同的ML算法如前所述使用AutoML工具包的FamilyRunner管道api来简化和自动化贷款违约预测

封闭的思想

2019年在砖是伟大的一年!2019年11月,我们聘请了第1000个全职员工。已经改变了很多自从我们第一年(2013年),你可以阅读更多关于它庆祝增长在砖和1000名员工!

砖庆祝其2019年的增长,达到1000雇员的里程碑

作为我们2019年惊人的增长的一部分,我们有我们的系列E资助(2019年2月5日)和F系列融资(2019年10月22日)以62亿美元的估值。我们留出一个€1亿(1.1亿美元)的系列F扩大欧洲发展中心总部位于阿姆斯特丹。在今年年底,我们宣布我们开放在多伦多的砖工程办公室2020年!

今年(2020)将更令人兴奋的一年即将到来的Apache火花3.0版本和我们继续增强三角洲湖,MLflow考拉,AutoML等等!如果你有兴趣,找到你的砖!

免费试着砖
看到所有公司博客上的帖子