Apache火花™
통합분석엔진Apache火花는릴리스된이후로다양한산업의기업에서빠른속도로도입되었습니다。Netflix、雅虎、eBay와같은인터넷대기업들이대규모로를火花배포하였고,8000개가넘는클러스터에서모두합쳐페타바이트규모의데이터를처리합니다。얼마지나지않아빅데이터분야에서는최대규모의오픈소스커뮤니티로성장하였250개고이상조직에서명1000이상이기여하고있습니다。
Apache火花는공급업체와관계없이Apache软件基金会에서호스팅되는100%오픈소스입니다。数据库에서는이오픈개발모델을유지하고자최선을다하고있습니다。砖는火花커뮤니티와더불어,앞으로도개발과커뮤니티를전도함으로써Apache火花프로젝트에크게이바지하고있습니다。
상향식으로성능을설계한Spark는메모리내컴퓨팅과다른최적화방식을활용하여대규모데이터처리에서보다100배빠른속도를자랑합니다。또한,火花는디스크에데이터를저장했을때도빠른속도로처리하고현재디스크내대규모정렬에서세계신기록을보유하고있습니다。
火花는대규모데이터세트를운영하는데쉽게사용할수있는API를제공합니다。여기에는데이터변환을위한100개이상의연산자컬렉션과반구조화된데이터조작에흔히사용하는데이터프레임API도포함됩니다。
火花는SQL쿼리,스트리밍데이터,머신러닝,그래프처리에대한지원을포함하여높은수준의라이브러리가패키지로제공됩니다。이러한표준라이브러리는개발자생산성을향상하며,간편하게결합하여복잡한워크플로를구현할수있습니다。