Apache火花

Apache Spark는빅데이터와머신러닝에사용하는고속통합분석엔진입니다。원래는2009년에加州大学伯克利分校에서개발되었습니다。

데이터처리분야에서는가장규모가큰오픈소스프로젝트입니다。

통합분석엔진Apache火花는릴리스된이후로다양한산업의기업에서빠른속도로도입되었습니다。Netflix、雅虎、eBay와같은인터넷대기업들이대규모로를火花배포하였고,8000개가넘는클러스터에서모두합쳐페타바이트규모의데이터를처리합니다。얼마지나지않아빅데이터분야에서는최대규모의오픈소스커뮤니티로성장하였250개고이상조직에서명1000이상이기여하고있습니다。
Spark - Apache Spark

加州大学伯克利分校에서火花연구프로젝트를시작했던팀2013년이에砖를설립했습니다。

Apache火花는공급업체와관계없이Apache软件基金会에서호스팅되는100%오픈소스입니다。数据库에서는이오픈개발모델을유지하고자최선을다하고있습니다。砖는火花커뮤니티와더불어,앞으로도개발과커뮤니티를전도함으로써Apache火花프로젝트에크게이바지하고있습니다。


Apache Spark에코시스템

Spark SQL + DataFrames

구조화된데이터:Spark SQL

대다수의데이터사이언티스트,애널리스트,일반비즈니스인텔리전스사용자는데이터를탐색할때인터랙티브SQL쿼리에의존합니다。Spark SQL은구조적데이터처리를위한Spark모듈입니다。이모듈은일명DataFrames라는프로그래밍추상화를제공하며분산형SQL쿼리엔진역할도할수있습니다。이것을이용하면수정되지않은하둡蜂巢쿼리를기존배포와데이터에서최대100배더빠르게실행되도록할수있습니다。또한나머지火花에코시스템과의강력한통합을제공하기도합니다(예:SQL쿼리처리를머신러닝과통합)。

스트리밍

스트리밍분석:Spark Streaming

대부분애플리케이션은배치데이터를처리하고분석하는기능뿐만아니라새로운데이터를실시간으로스트리밍하는기능도필요합니다。
火花를기반으로하는火花流은火花의사용편의성과내고장성을그대로활용하면서도스트리밍데이터와과거데이터에강력한인터랙티브분석애플리케이션을지원합니다。HDFS,水槽,卡夫卡,Twitter등의다양한인기데이터소스와바로통합됩니다。

MLlib머신 러닝

머신러닝:MLlib

머신러닝은빅데이터를마이닝하여실천가능한인사이트를얻는분야에서빠른속도로부상하여중요한비중을차지하게되었습니다。火花를기반으로한MLlib은확장가능한머신러닝라이브러리로,고급알고리즘(예:여러번의반복을거쳐정확도향상)과빠른속도(MapReduce보다속도가100배향상)을제공합니다。이라이브러리는火花애플리케이션의일부분으로Java、Python Scala및에서사용할수있으므로완료된워크플로내에포함할수있습니다。

GraphX그래프계산

그래프계산:GraphX

GraphX는火花를기반으로한그래프계산엔진으로,사용자가대규모의구조화된그래프데이터를상호작용방식으로구축,변환하고추론할수있도록지원합니다。일반적으로사용하는알고리즘라이브러리를제공합니다。

Spark Core API

일반실행:Spark Core

火花核心는火花플랫폼의기본일반실행엔진으로,그외에다른모든기능은이엔진을기반으로구축됩니다。메모리내컴퓨팅기능으로빠르고일반화된실행모델을제공하며,간편한개발을위해다양한애플리케이션과Java, Scala, Python API를지원합니다。

R
sql
Python
scala
Java

Apache Spark소개- Apache Spark의장점

속도

상향식으로성능을설계한Spark는메모리내컴퓨팅과다른최적화방식을활용하여대규모데이터처리에서보다100배빠른속도를자랑합니다。또한,火花는디스크에데이터를저장했을때도빠른속도로처리하고현재디스크내대규모정렬에서세계신기록을보유하고있습니다。

사용편이성

火花는대규모데이터세트를운영하는데쉽게사용할수있는API를제공합니다。여기에는데이터변환을위한100개이상의연산자컬렉션과반구조화된데이터조작에흔히사용하는데이터프레임API도포함됩니다。

통합 엔진

火花는SQL쿼리,스트리밍데이터,머신러닝,그래프처리에대한지원을포함하여높은수준의라이브러리가패키지로제공됩니다。이러한표준라이브러리는개발자생산성을향상하며,간편하게결합하여복잡한워크플로를구현할수있습니다。

Databricks클라우드에서무료로Apache Spark체험하기

砖통합분석플랫폼은완전관리형클라우드플랫폼에서오픈소스火花,협업노트북,통합워크플로,엔터프라이즈보안에대해5배의성능을제공합니다。

数据库이용해보기

오픈소스Apache Spark프로젝트는여기에서다운로드할수있습니다。