抽样는처음생겼을때부터晶石의기본사용자대상(面向用户)API였습니다。抽样는본질적으로데이터의여러요소를모은변경불가능한(不可变的)분산형컬렉션입니다。클러스터내여러노드에걸쳐분할된형태로변환이나작업을제공하는저수준API와동시에작업할수있습니다。
Rdd를사용해야할때를결정짓는5가지이유
- 数据集에서저수준변환,작업과제어를원하는경우。
- 데이터가비구조적marketing경우(미디어스트림또는텍스트스트림등)。
- 도메별현식말고함수프로그래밍구조로데이터를조작하고자하는경우。
- 이름이나열기준으로데이터속성을처리또는이에액세스하면서열형식과같은스키마를부여하는데관심이없는경우。
- 구조적,비구조적데이터에대하여DataFrame数据集과가제공하는최적화와성능면에서의장점을일부포기할수있는경우。
Apache Spark 2.0에서RDD에는무슨일이일어납니까?
Rdd는2급시민으로강등됩니까?사용이중단됩니까?이런질문에대한답은확실한'아니'입니다!API뿐만아니라단순한메서드호출을통해DataFrame이나数据集와抽样사이를자유자재로원활하게이동할수있으며DataFrame과数据集는抽样기반으로구축되었습니다。