대다수의데이터사이언티스트,애널리스트,일반비즈니스인텔리전스사용자는데이터를탐색할때인터랙티브SQL쿼리에의존합니다。Spark SQL은구조적데이터처리를위한火花모듈입니다。이모듈은일명DataFrames라는프로그래밍추상화를제공하며분산형SQL쿼리엔진역할도할수있습니다。이것을이용하면수정되지않은하둡蜂巢쿼리를기존배포와데이터에서최대100배더빠르게실행되도록할수있습니다。또한나머지火花에코시스템과의강력한통합을제공하기도합니다(예:SQL쿼리처리를머신러닝과통합)。

Apache Spark SQL이란무엇입니까?

火花SQL SQL네은火花에이티브지원을제공하여抽样(火花의분산형数据集)와외부소스양쪽모두에저장된데이터를쿼리하는프로세스를간소화해줍니다。火花SQL는편리하게도抽样와관계형테이블을구분하는선을모호하게흐립니다。이강력한추상화를통합하면개발자입장에서외부데이터를쿼리하는SQL명령을복잡한분석과서로혼합하기쉬운데,그것도모두한가지애플리케이션내에서가능합니다。구체적으로,Spark SQL을사용하여개발자가할수있는일은다음과같습니다。

  • 拼花파일에서蜂巢테이블로관계형데이터가져오기
  • 가져온데이터및기존rdd에대하여SQL쿼리실행
  • 蜂巢테이블이나拼花파일로손쉽게RDD쓰기

火花SQL에는비용기반최적화프로그램,열형식스토리지와코드생성도포함되어있어쿼리속도가빠릅니다。동시에火花엔진을사용해수천개의노드,여러시간의쿼리규모로확장할수있어과거데이터에는다른엔진을사용해야한다는걱정없이쿼리중내결함성을보100%장합니다。

额外的资源

回到术语表