丹尼尔书籍引导居民解决方案架构师实践在砖和负责垂直整合、随笔和战略客户的增长。大数据之旅始于2014年在一个主要的石油和天然气公司之后,他搬到Cloudera两年来作为一个解决方案架构师和2017年加入砖。
厌倦了做同样的ole特性的工程任务或优化你的模型吗?来看如何解决这个砖实验室。我们将探讨这个工具包自动化和加速:特性工程/扑杀特性重要性选择模型选择与优化模型服务/部署模型文档(MLflow)推理和得分
正确地塑造分区和你们的工作使强大的优化,消除倾斜和集群利用率最大化。我们将探索各种火花分区塑造方法以及一些优化策略包括加入优化,总体优化,撒上盐和多维并行。
正确地塑造分区和你们的工作使强大的优化,消除倾斜和集群利用率最大化。我们将探索各种火花分区塑造方法以及一些优化策略包括加入优化,总体优化,撒上盐和多维并行。
建立、管理和维护成千上万的特性在成千上万的模型。建筑功能可以重复、单调乏味的和极具挑战性。我们将探讨实现的功能工厂建在砖和几家客户和命令式的民主化的过程特性的开发和部署。功能工厂允许消费者以确保创建重复特性,简化了得分和允许通过乘法功能强大的可伸缩性。
优化火花工作通过一个火花核心的真正理解。学习:一个分区是什么?之间的区别是什么读/洗/写分区?如何增加并行性和减少输出文件?洗牌阶段之间的数据去哪里?什么是“正确”的大小为你的火花分区和文件?为什么工作慢下来只剩下几个任务,从来没有结束?为什么不增加节点减少计算时间吗?
优化火花工作通过一个火花核心的真正理解。学习:一个分区是什么?之间的区别是什么读/洗/写分区?如何增加并行性和减少输出文件?洗牌阶段之间的数据去哪里?什么是“正确”的大小为你的火花分区和文件?为什么工作慢下来只剩下几个任务,从来没有结束?为什么不增加节点减少计算时间吗?