하둡클러스터

回到术语表
迁移hadoop的傻瓜

하둡클러스터란무엇입니까?

ApacheHadoop은오픈소스,Java기반소프트웨어프레임워크이자병렬식데이터처리엔진입니다。하둡을이용하면빅데이터분석처리작업을작은크기의작업으로분해하여알고리즘(예를들어MapReduce알고리즘같은)을사용하여병렬식으로수행할수있고,그런다음하둡클러스터에배포하면됩니다。하둡클러스터란네트워크로서로연결된일련의컴퓨터('노드'라고함)를말합니다。이렇게한데모아서빅데이터세트에서이런종류의병렬연산을수행하도록한것입니다。하둡클러스터는여타컴퓨터클러스터와는달리대량의구조적,비구조적데이터를분산형컴퓨팅환경에저장하고분석하는데특화되어있습니다。이외에하둡에코시스템은고유한구조와아키텍처를가지고있어다른컴퓨터클러스터와다릅니다。하둡클러스터는서로연결된마스터,슬레이브노드네트워크로구성되어있습니다。노드는고가용성,저가상용하드웨어를활용합니다。선형적으로확장하여볼륨수요에따라신속하게노드를더하거나뺄수있다는점때문에크기가무척다양한데이터세트를다루는빅데이터분석작업에적합합니다。

하둡클러스터아키텍처

하둡클러스터는하둡분산형파일시스템전체에걸쳐다양한작업을오케스트레이션,실행하는여러마스터노드와작업자노드로구성된네트워크로이루어져있습니다。마스터노드는보통NameNode,二级NameNode와JobTracker등고품질하드웨어를활용하며,각각이별도의시스템에서실행됩니다。작업자노드는가상머신으로구성되며상용하드웨어에서DataNode와TaskTracker를둘다실행하고마스터노드의지시에따라실제로작업을저장하고처리하는실무를담당합니다。시스템을이루는마지막부분을클라이언트노드라고하는데,이노드는데이터를로드하고결과를가져오는역할을담당합니다。
하둡클러스터는마스터노드,작업자노드와클라이언트노드라는세가지서로다른노드유형으로구성됩니다。

  • 마스터노드는MapReduce를사용해데이터에서병렬식연산을실행하는등데이터를HDFS에저장하고주작업을감독합니다。
  • 작업자노드는하둡클러스터내대부분의가상머신으로구성되어데이터를저장하고연산을수행하는작업을담당합니다。각각의작업자노드는DataNode와TaskTracker라는서비스를실행하는데,이는마스터노드에서지침을받는데쓰입니다。
  • 클라이언트노드는데이터를클러스터에노드하는역할을맡습니다。클라이언트노드는우선MapReduce작업을제출하여데이터를어떻게처리해야하는지설명하고,그런다음처리가끝나면결과를가져옵니다。

하둡의클러스터크기란무엇입니까?

하둡클러스터크기는하둡워크로드를실행하기위한스토리지와컴퓨팅역량을정의하는일련의지표를말합니다。구체적으로는다음과같은소를뜻합니다。

  • 노드수:마스터노드수,에지노드수,작업자노드수。
  • 각유형의구성:노드당코어수,ram과디스크볼륨。

하둡클러스터의장점

  • 하둡클러스터를사용하면대다수의빅데이터분석작업에서처리속도를높이는데도움이됩니다。크기가큰연산작업을작은작업으로분해하여병렬식으로,분산된형태로실행할수있게해주기때문입니다。
  • 하둡클러스터는확장하기쉽고금세노드를추가하여처리량을늘릴수있으며,데이터블록이늘어나는상황에직면해도처리속도는일정하게유지합니다。
  • 하둡클러스터는저가,고가용성상용하드웨어를사용하기때문에설치와유지도비교적쉽고저렴한편입니다。
  • 하둡클러스터는분산형파일시스템전체에걸쳐데이터세트를복제하여데이터손실과클러스터오류가발생해도복원력을확보합니다。
  • 하둡클러스터를이용하면여러가지다양한소스시스템과데이터형식에서얻은데이터를통합하여활용할수있습니다。
  • 하둡은평가목적으로노드하나만설치해배포할수도있습니다。

하둡클러스터의문제점

  • 작은파일과관련한문제점-하둡은대량의작은파일(하둡블록크기인128 mb나기본값인256 mb보다작은것)을다룰때특히고전합니다。애초에빅데이터를확장할수있는방식으로지원하게고한것이아닙니다。그보다하둡은큰파일이소량있을때효과가좋습니다。궁극적으로,작은파일볼륨을늘리면시스템네임스페이스를저장하는Namenode에과부하가걸립니다。
  • 처리오버헤드부담하,둡에서는특히대량의데이터를처리할때읽기,쓰기작업에드는비용이순식간에매우비싸질수있습니다。이런사태의근본적인원인은하둡이메모리내처리를할수없고그대신디스크를통해데이터를읽고쓰기때문입니다。
  • 배치처리만지원됨-하둡은소량의큰파일을배치형태로처리하도록설계되었습니다。여기서데이터의수집,저장방식이야기가다시거론되는데,수집과저장을모두마친후에야처리를시작할수있다는뜻입니다。궁극적으로이것은스트리밍데이터가지원되지않는다는뜻이고,짧은레이턴시로실시간처리를할수없다는뜻이기도합니다。
  • 반복처리-하둡의데이터흐름구조는순차적인단계로설정되어있으므로반복처리하거에나毫升사용하기는불가능합니다。

额外的资源

回到术语表