每周数据点处理
减少处理时间
在通过工作流自动化操作
实现Wood Mackenzie的使命,镜头产品是一种数据分析平台构建提供见解在客户在能源领域的关键决策点。bob体育客户端下载喂养镜头收集大量的数据从不同的数据源和传感器用于监测创造能源,石油和天然气生产,等等。这些数据源更新每周约120亿数据点,必须摄取,清洗和加工透镜的输入平台的一部分。bob体育客户端下载副总裁吴Yanyan Wood Mackenzie的数据管理大数据的专业团队,建立和维护提供了输入数据的ETL管道镜头。团队利用砖Lakehouse并行处理平台,使用Apache火花™,它提供了更好的性能和可伸缩性的bob体育客户端下载好处相比,早期单节点系统工作顺序。“我们看到80 - 90%的减少数据处理时间,导致我们为我们的客户提供更多的更新,更全面和更准确的数据,”Wu说。
管道管理的数据标准化和清洁团队包括几个阶段的原始数据,可以结构化或非结构化的形式,可能pdf甚至手写笔记。
不同数据的团队成员负责管道的不同部分,有一个处理阶段每个团队成员拥有之间的依赖关系。使用砖的工作流共同一工作流程定义的团队,整个团队使用。每个阶段的管道是在Python实现笔记本,这是作为工作的主要运行工作流。
每个团队成员可以看到什么代码运行在每个阶段,因此很容易找到问题的原因。知道谁拥有的起源问题的管道可以更快地解决问题。“没有通用工作流,不同成员的团队将独立运行他们的笔记本电脑,不知道失败在他们的运行影响下游阶段,“孟小姐说张校长Wood Mackenzie的数据分析师。“当试图重新运行笔记本,很难说这笔记本版本最初运行和使用最新的版本。”
使用工作流的报警功能通知团队工作流任务失败时确保每个人都知道发生了故障,允许团队共同努力,迅速解决问题。创建一个通用工作流的定义一致性和透明度,使合作更容易。“使用砖工作流允许我们鼓励协作和分解过程的不同阶段之间的墙,“吴解释道。“这让我们都说同样的语言。”
创造透明度和一致性并不是唯一的优势团队看到。使用工作流自动化笔记本运行也导致节约成本相比,手动运行交互式笔记本。
团队的ETL管道开发过程包括迭代PySpark笔记本。利用互动的笔记本在砖UI团队中的数据专业人员更容易手动开发和测试一个笔记本。因为砖工作流支持笔记本电脑运行的任务类型(连同Python文件、JAR文件和其他类型),当代码已经准备好生产,很容易和成本有效的自动化它通过添加一个工作流。工作流可以轻易修改,添加或删除任何步骤或从定义的流。这种工作方式使手动的好处与互动发展笔记本笔记本用户界面,利用自动化的力量,这样可以减少手动笔记本运行时可能发生的潜在问题。
团队已经在提高生产力进一步发展中CI / CD的过程。“通过连接我们的源代码控制代码存储库,我们知道工作流总是最新的代码运行版本我们承诺回购,”张解释道。“也很容易切换到开发部门开发一个新功能,修复一个缺陷并运行一个开发工作流程。当代码通过所有的测试,这是回到主干合并生产工作流程是自动更新最新的代码”。
展望未来,Wood Mackenzie计划优化其使用砖工作流的自动化机器学习过程等模型训练,漂移模型监测和处理模型。该公司使用毫升提高数据质量和提取见解为其客户提供更多的价值。“我们的任务是努力改变我们的实力,”吴说。“我们的客户在能源领域需要数据,咨询服务和研究来实现这一转换。砖工作流给我们的速度和灵活性提供需要客户的洞察力。”