Apache Spark Streaming은Apache Spark스트리밍엔진의이전세대입니다。Spark Streaming은더이상업데이트되지않는레거시프로젝트입니다。Apache火花에는结构化流이라는새롭고간편한스트리밍엔진이있습니다。애플리케이션과파이프라인스트리밍을위해서는火花结构化流을사용해야합니다。结构化流을참조하세。

Spark Streaming이란무엇입니까?

Apache火花流은확장할수있는내결함성(容错)스트리밍처리시스템으로,배치및스트리밍워크로드를둘다기본적으로지원합니다。火花流은코어火花API의확장프로그램으로,데이터엔지니어와데이터사이언티스트가卡夫卡,水槽및亚马逊运动등을비롯한(여기에만국한되는것은아님)여러소스에서가져온실시간데이터를처리할수있게해줍니다。이렇게처리한데이터를파일시스템,데이터베이스나사용중인대시보드로보낼수있습니다。여기에속한주요추상화를离散流,줄여서DStream이라고하는데,이것은데이터스트림하나를여러개의작은배치로나눈것을말합니다。DStream은Spark의코어데이터추상화RDD기반입니다。이것을이용하면火花流이MLlib SQL과나火花같은여타모든火花구성요소와원활하게통합됩니다。火花流이다른여러시스템과다른점은,스트리밍만을위해고안된처리엔진이있거나이와비슷한배치및스트리밍API가있어도여러가지엔진으로내부에서컴파일링한다는데있습니다。火花의배치,스트리밍용단일실행엔진과통합형프로그래밍모델은기존의다른스트리밍시스템과비교해몇가지독보적인장점이있습니다。

Spark Streaming의4대주측면

  • 오류,지연작업발생시신속한복구
  • 로드밸런싱과리소스사용률개선
  • 정적数据集와表터랙티브쿼리를사용해스트리밍데이터결합
  • 고급처리라이브러리(sql,머신러닝,그래프처리)와네이티브방식으로통합

Apache火花

이렇게이질적인데이터처리기능을통합하는기능이火花流이급속히도입된주된이유입니다。이것을사용하면개발자가처리요구사항전체에모두부합하는단하나의프레임워크만간편하게사용할수있습니다。

额外的资源

回到术语表