公司博客上

Azure上的现代工业物联网分析-第1部分

客户利用Azure Databricks进行工业物联网分析
分享这篇文章
这篇文章和关于工业物联网分析的三部分系列文章是由Databricks和微软云解决方案架构团队成员共同撰写的。我们要感谢Databricks解决方案架构师Samir Gupta和微软云解决方案架构师Lana Koprivica和Hubert Dua,感谢他们对本文和即将发布的两篇文章所做的贡献。

在过去的几年里,工业物联网(IIoT)作为一种基层技术堆栈已经发展起来,主要在石油和天然气行业进行试点,在制造业、化工、公用事业、交通和能源行业广泛采用和生产使用。由于以下因素,Scada、历史学家甚至Hadoop等传统物联网系统都无法提供大多数组织所需的大数据分析功能,以预测优化其工业资产。

挑战 所需的能力
数据量明显更大、更频繁 能够可靠地从物联网设备中捕获和存储亚秒级的颗粒级读数,并且具有成本效益,每天传输tb级数据
数据处理需求更加复杂 兼容acid的数据处理——基于时间的窗口、聚合、枢轴、回填、移位,并能够轻松地重新处理旧数据
更多的用户角色想要访问数据 数据是一种开放的格式,可以轻松地与运营工程师、数据分析师、数据工程师和数据科学家共享,而不会产生竖井
可伸缩的ML是决策制定所必需的 能够在细粒度历史数据上快速协作地训练预测模型,以做出智能资产优化决策
降低成本的要求比以往任何时候都高 低成本的按需管理平台,可独立扩展数据和工作负载,无需大bob体育客户端下载量前期资金

组织正在转向像微软Azure这样的云计算平台,以利用他们必须提供的可扩展的、支持iiot的bob体育客户端下载技术,使吸收、处理、分析和服务时间序列数据源(如历史学家和SCADA系统)变得容易。

在第1部分中,我们讨论了端到端技术堆栈和角色Azure砖在现代物联网分析工业应用的架构和设计中发挥着重要作用。

在第2部分中,我们将深入研究部署现代工业物联网分析,将现场设备的实时工业物联网机器对机器数据输入Azure数据湖存储,并直接在数据湖上执行复杂的时间序列处理。

在第3部分中,我们将研究机器学习和工业物联网数据分析。

用例-风力涡轮机优化

大多数工业物联网分析项目旨在最大化工业资产的短期利用,同时最大限度地降低其长期维护成本。在本文中,我们关注一个假设的能源供应商,试图优化其风力涡轮机。最终目标是确定一组最优的涡轮运行参数,使每个涡轮的功率输出最大化,同时使其故障时间最小化。

工业物联网的目标是在短期内最大化效用,同时在长期内最小化停机时间。

这个项目的最终工件是:

  1. 自动的数据摄取和处理管道,将数据传输给所有最终用户
  2. 一种预测模型,在给定当前天气和运行条件下估计每个涡轮机的功率输出
  3. 一种预测模型,在给定当前天气和运行条件下估计每个涡轮机的剩余寿命
  4. 一种优化模型,确定最佳的操作条件,以最大限度地提高功率输出和最小化维护成本,从而最大限度地提高总利润
  5. 为高管提供实时分析仪表板,以可视化其风电场的当前和未来状态,如下图所示:

工业物联网分析仪表板可以帮助业务高管可视化,例如,一个工业资产(如风电场)的当前和未来状态。

建筑-摄取,储存,准备,训练,服务,可视化

下面的架构说明了许多组织使用的现代最佳平台,利用Azure为工业物联网分析提供的所有功能。bob体育客户端下载

以Azure数据湖存储和Delta存储格式为特色的工业物联网数据分析架构为数据团队提供了处理时间序列流数据的最佳平台。bob体育客户端下载

该架构的一个关键组件是Azure数据湖存储(ADLS),它支持Azure中的“一次写入,经常访问”分析模式。然而,数据湖本身并不能解决时间序列流数据带来的现实挑战。Delta存储格式为存储在ADLS中的所有数据源提供了一层弹性和性能。特别是对于时间序列数据,Delta在ADLS上提供了与其他存储格式相比的以下优势:

所需的能力 ADLS Gen 2上的其他格式 ADLS上的Delta格式Gen 2
统一批、流处理 数据湖通常与CosmosDB这样的流存储结合使用,从而形成复杂的架构 与acid兼容的事务使数据工程师能够在ADLS的相同位置执行流提取和历史批量加载
模式实施和演进 数据湖不强制执行模式,要求将所有数据推入关系数据库以提高可靠性 模式在默认情况下是强制的。随着新的物联网设备被添加到数据流中,模式可以安全地演变,因此下游应用程序不会失败
高效的插入 数据湖不支持内嵌更新和合并,需要删除和插入整个分区才能执行更新 MERGE命令在处理延迟IoT读取、用于实时充实的修改维度表或需要重新处理数据的情况下非常有效。
文件压缩 将时间序列数据输入数据湖会生成数百甚至数千个小文件。 Delta中的自动压缩优化了文件大小,以提高吞吐量和并行性。
多维聚簇 数据湖仅对分区提供下推过滤 在时间戳或传感器ID等字段上对时间序列进行排序,可以让Databricks对这些列进行筛选和连接,速度比简单的分区技术快100倍。

总结

在这篇文章中,我们回顾了传统工业物联网系统面临的一些不同挑战。我们介绍了现代工业物联网分析的用例和目标,分享了组织已经大规模部署的可重复架构,并探讨了Delta格式对每个所需功能的好处。

在下一篇文章中,我们将从现场设备获取实时工业物联网数据到Azure,并直接在数据湖上执行复杂的时间序列处理。

他们把一切联系在一起的关键技术是三角洲湖。ADLS上的Delta提供可靠的流数据管道和对大量时间序列数据的高性能数据科学和分析查询。最后,它通过将最好的Azure工具引入一次编写、经常访问的数据存储,使组织能够真正采用Lakehouse模式。

接下来是什么?

BOB低频彩了解更多关于Azure Databricks的信息三部分培训系列并通过参与了解如何创建现代数据架构这个网络研讨会

免费试用Databricks

相关的帖子

看到所有公司博客上的帖子