连续应用程序是实时响应数据的端到端应用程序。特别是,开发人员希望使用单个编程接口来支持当前在单独系统中处理的连续应用程序的各个方面,例如查询服务或与批作业的交互。下面是一个连续应用程序可以处理以下用例的示例。

  • 更新将实时提供的数据。开发人员可以编写一个单独的Spark应用程序来处理更新和服务(例如通过Spark的JDBC服务器),或者使用一个API在服务系统上自动执行事务性更新,如MySQL, Redis或Apache Cassandra。
  • 提取、转换和加载(ETL)。开发人员只需在批处理作业中列出所需的转换,流系统将处理与两个存储系统的协调,以确保只进行一次处理。
  • 创建现有批处理作业的实时版本。流处理系统将保证在相同数据上的结果始终与批处理作业一致。
  • 在线机器学习。机器学习库将结合实时训练、定期批处理训练和预测服务于同一个API。

连续应用程序

额外的资源

回到术语表