변환이란무엇입니까?

Spark에서코어데이터구조가변경불가능(不可变)하다는것은일단생성하면변경할수없다는뜻입니다。이것은처음에는조금기이한개념으로여겨질수있습니다。변경할수없다면어떻게사용합니까?DataFrame을”변경”하려면火花에지금가지고있는DataFrame을원하는버전으로수정할방법을지시해야합니다。이런지침을변환(转换)이라고합니다。변환은Spark를사용해비즈니스로직을현하는방법의핵심입니다。변환에는두가지유형이있는데,하나는좁은의존성(狭窄的依赖)을지정하는것이고다른하나는넓은의존성(宽依赖)을지정하는것입니다。

좁은의존성이란무엇입니까?

좁은의존성(일으로구성된변환은명좁은변환이라고함)각각의입력파티션이딱하나의출력파티션에만영향을미치는변환을말합니다。좁은 변환

넓은의존성이란무엇입니까?

넓은의존성[또는넓은변환]방식의변환은입력파티션이수많은출력파티션에이것은주로섞기(shuffle)라불리며,이경우Spark가클러스터전체에서파티션을교환하게됩니다。좁은변환의경우,火花가좁은의존성에서파이프라이닝이라는작업을자동으로수행하는데,이는즉DataFrames에여러개의필터를지정하면모두메모리내에서수행된다는뜻입니다。섞기(shuffle)의경우이야기가다릅니다。섞기(shuffle)를수행하면Spark가결과를디스크에씁니다。웹상에서섞기(shuffle)최적화에관한이야기가많이눈에띌텐데,그만큼중요한주제이기때문입니다。하지만지금으로서는변환에는두가지종류가있다는것만이해하면됩니다。广泛的转换

额外的资源

回到术语表