DataFrame이란무엇입니까?

DataFrame이란데이터를행과열로구성차된2원표(스프레드시트와비슷)로정리하는데이터구조입니다。DataFrame은최신데이터분석에서가장보편적으로쓰이는데이터구조중하나입니다。유연하고직관적방식으로데이터를저장하고작업이가능하기때문입니다。

각数据帧에는스키마라고하는블루프린트가있어서,각열의이름과데이터유형을정의합니다。火花DataFrames는StringType, IntegerType등의보편적데이터유형은물론이고火花고유의데이터유형(예:StructType)을포함할수있습니다。누락되거나불완전한값은数据帧에서값으로저장됩니다。

간단하게비유하자면,DataFrame이란이름이지정된열을포함한스프레드시트와같습니다。다만둘의차이가있다면스프레드시트는특정위치의컴퓨터한대에위치하지만,DataFrame은컴퓨터수천대에존재할수있다는것입니다。이때문에DataFrame을이용하면분산형컴퓨팅클러스터를사용해빅데이터를분석할수있습니다。

데이터를한대이상의컴퓨터에배치하는이유는쉽게감을잡을수있습니다。데이터가너무커서시스템하나만으로는역부족이거나,아니면컴퓨터한대에서연산을수행하기에는너무오래걸리기때문입니다。

DataFrames

数据帧은다양한언어와프레임워크에서공통된개념입니다。Python DataFrames는인기있는데이터분석라이브러리熊猫인에서사용하는주요데이터유형이며,R, Scala등의언어에서도사용됩니다。

额外的资源

回到术语表