数据集는Spark의Java및Scala용구조적API의type-safe버전입니다。이Python API는과R에서는이용할수없는데,이둘은동적타이핑(动态)언어이기때문입니다。하지만Scala와Java에서대형애플리케이션을쓰는데에는아주강력한툴입니다。DataFrame이유형行개체로구성된분산형컬렉션이라고언급한적이있습니다。여기에다양한유형의테이블형식데이터를보관할수있습니다。数据集API를사용하면DataFrame내에있는레코드에Java클래스를하나할당하고,이를타이핑개체컬렉션으로조작할수있습니다。이것은Java ArrayList나Scala Seq와비슷합니다。数据集에서이용할수있는API는타입세이프(类型安全)언어인데,이에는数据集속한개체는사용자가처음에배치한클래스외의다른클래스로우발적으로잘못볼수가없다는뜻입니다。数据集이때문에는여러명의소프트웨어엔지니어가잘정의된인터페이스를통해상호작용을주고받아야만하는대규모애플리케이션을쓰는데특히매력적인언어입니다。数据集클래스는내부에포함된개체유형으로매개변수가지정됩니다。Java에서는Dataset, Scala에서는Dataset[T]입니다。火花2.0부터는지원되는类型T Java가에서는JavaBean패턴을따르는모든클래스,Scala에서는케이스클래스입니다。이런类型에는제한이있는데,왜냐하면火花T类型를가자동으로분석하고数据集내의테이블형식데이터에적절한스키마를생성할수있어야하기때문입니다。 数据集

额外的资源

回到术语表