克里斯托弗•米勒

数据科学家,

    在奥兰多NAWCTSD的海军企业研究和数据科学团队(N.E.R.D.S.)工作的数据科学家。Chris拥有中佛罗里达大学的计算机工程学士学位。他在国防部建模、仿真、测试和评估领域拥有多年经验。

    过去的会议

    2020年峰会 使用Apache Spark预测航空中退化和失效部件

    2020年6月24日下午05:00 PT

    纵观海军航空兵,数据湖为预测维护和提高许多平台的战备状态提供了原始资料。bob体育客户端下载成功利用这些数据湖在技术上具有挑战性。然而,他们所持有的数据可以为维护决策提供信息,并通过在组件退化和故障之前揭示可检测到的条件来帮助车队提高战备状态。民用和军用航空数据集非常庞大和异构。作者成功地使用Spark来帮助克服ETL管道中的这些挑战。Spark还为大规模的飞机部件健康检查提供了特别和经常性的报告,这些报告是与内部工程部门合作创建的,这些部门会标记已知问题的记录航班。Spark ML通过将回归模型拟合到历史数据并将模型输出与观测飞行进行比较来标记异常数据。每一次新的飞行都会测量模型输出的特征偏差,并且出现异常超出预期范围的飞行会被标记为人工审查。

    Apache Spark使一个小团队能够处理跨越数百个模式的大量数据。该团队已经使用Spark并行化飞机组件健康评分算法,将模型的运行时间从几天或几周减少到几小时。由于Spark的速度和多功能性,它已成为官方报告架构中的主要组件,并成功地在故障之前标记部分。Spark也遇到了一些缺点,包括仍然在Pandas中执行的数据可视化。作者将讨论并详细说明他们的团队如何成功地使用这些工具,以及未来的发展方向。主要结论:-由于数量和多样性,民用和军用航空数据难以处理- Spark是专门为解决这些问题而设计的- Spark在一个小型专业团队的航空报告和分析架构中发挥着重要作用