용어집

트랜잭션이란무엇입니까?데이터베이스와데이터스토리지시스템이라는맥락에서트랜잭션이란한단위의작업으로취급되는모든작업을말합니다。트랜잭션은완전히완료되기도하고전혀완료되지않을수도있으며,스토리지시스템을한결같은상태로둡니다。고전적예는다음과같습니다。{. .}
경사하강법(梯度下降)은머신러닝과딥러닝알고리즘에서가장보편적으로쓰이는최적화방식입니다。머신러닝모델을교육하는데쓰입니다。경사하강법의유형{. .}
대체데이터란무엇입니까?대체데이터(替代数据)는남들이사용하지않는,비일반적인정보출처를가리키는대안적(替代)데이터소스를사용해수집한정보입니다。대체데이터를분석하면업계의평범한데이터소스가제공할수있는범위를벗어난인사이트를{. .}
이상치탐지(异常检测)은나머지관측결과와는통계적으로달라의심을유발할수있는드문이벤트나관측결과를알아보는기법입니다。그러한”변칙”행동은보통신용카드사기행위,시스템오류나사이버공격등일종의문제점으로해석될때가많습니다。{. .}
Apache Hive란무엇입니까?Apache蜂巢는대규모데이터를읽고,쓰고,관리하도록설계된오픈소스데이터웨어하우스소프트웨어{. .}
Apache Kudu란무엇입니까?Apache捻角羚는Apache Hadoop용으로개발한무료,오픈소스열기반스토리지시스템입니다。각각의행에낮은레이턴시{. .}구조적데이터용엔진입니다。
Apache Kylin이란무엇입니까?Apache麒麟은인터랙티브분석빅데이터에적합한분산형오픈소스온라인분석처리在线分析处理(OLAP)엔진입니다。Apache麒麟은Hadoop /火花에서SQL인터페이스와다차원분석(OLAP)을제공하기위해{. .}
Apache Spark란?Apache Spark는빅데이터워크로드에쓰이는오픈소스분석엔진입니다。배치는물론실시간분석과데이터처리워크로드도처리할수있습니다。Apache火花는2009년캘리포니아대학교버클리캠퍼스에서연구프로젝트로시작되었습니다。{. .}
Apache Spark as a Service란무엇입니까?Apache火花는고속실시간대규모데이터처리를위한오픈소스클러스터컴퓨팅프레임워크입니다。火花는2009년UC버클리AMPLab에서탄생한이래큰성장을이루었습니다。지금은가장큰오픈소스커뮤니티로평가되며{. .}
공신경망이란무엇입니까?인공신경망(人工神经网络ANN)은사람의뇌속뉴런의작용을본떠패턴을구성한컴퓨팅시스템의일종입니다。공신경망은어떻게작동합니까?공신경망은가중치를적용한방향성{. .}
자동화편향이란무엇입니까?자동화편향(自动化偏见)은자동보조도구나의사결정지원시스템에지나치게의존하는것을말합니다。자동의사결정보조도구가널리보급되면서중환자실이나항공기조종석과같이중대한의사결정을내려야하는상황에서이런도구를이용하는사례가점점흔해지고{. .}
베이지신경망이란무엇입니까?베이지안신경망(贝叶斯神经网络(BNN)은과적합(过度拟合)을제어하기위해사후추론을사용해표준네트워크를연장한것을가리킵니다。넓은의미에서보면베이지방식은통계적방법론을사용하므로모든것에확률이{. .}
데이터와빅데이터분석의차이하둡이발명되기전에는현대식스토리지와컴퓨팅시스템의기저를이루는기술이비교적기본적이어서한계가{. .}
(生物信息学)생물정보학이란생물학데이터를모은대규모컬렉션에서연산을통해지식을추출하는학문분야를말합니다。{. .}
Spark SQL의핵심은Catalyst Optimizer입니다。이것은지능형프로그래밍언어기능(예:Scala의패턴매칭과拟引用등)을참신한방식으로활용해확장할수있는쿼리최적화프로그램을구축합니다。Catalyst는Scala로쓴기능성프로그래밍구조를기반으로하며고할때{. .}
복합이벤트처리(cep)란무엇입니까?복합이벤트처리(复杂事件处理(CEP))는다른말로이벤트,스트림또는이벤트스트림처리라하며기술을사용해데이터를쿼리한다음데이터베이스내에저장하거나,경우에따라서는애초에전혀저장하지않고쿼리하는것을말합니다。복합이벤트처리는{. .}
지속형애플리케이션(连续应用程序)은실시간으로데이터에반응하는종단간(E2E)애플리케이션입니다。특히개발자의경우별도의시스템에서현재처리중인지속형애플리케이션의여러측면(예를들어쿼리제공,배치작업과의상호작용)등을지원하기위해단한가지프로그래밍인터페이스를사용하고자합니다。{. .}
딥러닝에서컨볼루셔널신경망(卷积神经网络,CNN또는事先)이란심층신경망의한등급으로,보통이미지속에존재하는패턴을인지하는데쓰이지만이외에공간데이터분석,컴퓨터비,전자연어처리,신호처리및여타다양한용도에도쓰입니다。{. .}
데이터분석플랫폼이란무엇입니까?데이터분석플랫폼은용량이크고복잡한동적데이터를대상으로분석을수행해야하는서비스와기술로구성된에코시스템입니다。이것을통해회사에속한다양한출처로부터얻은데이터를검색,조합,데이터와상호작용을주고받기도하고탐색,표시할수있습니다。{. .}
데이터거버넌스란무엇입니까?데이터거버넌스는데이터가가치를창출하는지확인하는감독행위이며,비즈니스전략을지원하는활동입니다。데이터거버넌스는단순한도구나프로세스가아닙니다。사람,프로세스,기술,데이터와관련하여비즈니스목@와목적을지원하는{. .}
데이터레이크하우스란무엇입니까?데이터레이크하우스는데이터레이크의유연성,비용효율성과규모에데이터웨어하우스의데이터관리와酸트랜잭션을합한새로운오픈데이터관리아키텍처로,{. .}
데이터마트란무엇입니까?데이터마트는하나의데이터팀,커뮤니티또는사업부(예:마케팅또는엔지니어링부서)의특정한요구사항을충족하도록설계뙨테이블세트가포함된큐레이션데이터베이스입니다。일반적으로규모가작은편이고데이터웨어하우스보다{. .}
데이터공유란무엇입니까?数据共享은하나또는여러명의고객에게같은데이터를제공할수있는기능입니다。요즘들어서는어느회사에서나지속적으로늘어나는방대한데이터자체가전략적자산이되었습니다。조직팎으로데이터를공유하는것은새로운사업기회를발견할수있도록{. .}
데이터볼트란무엇입니까?데이터볼트는엔터프라이즈규모분석을위한데이터웨어하우스를구축하는데사용하는데이터모델링설계패턴입니다。데이터볼트는허브,링크,위성,이렇게세가지유형의엔터티가있습니다허브는핵심비즈니스개념을나타냅니다。{. .}
데이터웨어하우스란무엇입니까?데이터웨어하우스는여러소스의현재및과거데이터를비즈니스에서쉽게인사이트와보고서를얻을수있도록저장하는데이터관리시스템입니다。일반적으로데이터웨어하우스는비즈니스텔리전스(bi),보고및{. .}에사용합니다。
运行时은砖砖에서관리하는머신클러스터에서실행되는소프트웨어아티팩트세트입니다。여기에는火花도포함하지만이외에도여러구성요소와업데이트를추가하여빅데이터분석의사용성,성능과보안을대폭개선해줍니다。주된차별점은{. .}
DataFrame이란무엇입니까?DataFrame이란데이터를행과열로구성차된2원표(스프레드시트와비슷)로정리하는데이터구조입니다。DataFrame은최신데이터분석에서가장보편적으로쓰이는데이터구조중하나입니다。유연하고직관적방식으로{. .}
数据集는Spark의Java및Scala용구조적API의type-safe버전입니다。이Python API는과R에서는이용할수없는데,이둘은동적타이핑(动态)언어이기때문입니다。하지만Scala와Java에서대형애플리케이션을쓰는데에는아주강력한툴입니다。다시상기해보자면,DataFrames는분산형{. .}
딥러닝이란무엇입니까?딥러닝은머신러닝의하위집합으로,특히사람의뇌구조와기능에서영감을얻은,알고리즘을포함한대량의데이터를다룹니다。그래서딥러닝모델을종종심층신경망이라고부르는것입니다。그래서{. .}
수예측이란무엇가?수예측은소비자수(=미래의수익)를예측하는과정입니다。특히,쇼핑객이구매할제품군을정량적데이터와정성적데이터를사용하여예측합니다。{. .}
밀집텐서는인접한순차적메모리블록에값을저장하는데,이곳에모든값이표시됩니다。텐서,즉다차원어레이는매우다양한다차원데이터분석애플리케이션에서사용됩니다。텐서연산을수행할줄아는소프트웨어제품은많습니다。{. .}
디지털트윈이란무엇입니까?기존에는디지털트윈을”물리적사물을정확히반영하도록설계된가상모델“로정의했습니다。——IBM{. .}
DNA서열이란무엇입니까?DNA서열은DNA(脱氧核糖核酸,디옥시리보핵산)의뉴클레오타이드(核苷酸)의정확한순서를판별하는과정입니다。DNA서열은네가지화학적기본요소인아데닌,구아닌,사이토신,티아민등일명”염기“의순서를정하는것으로,이는{. .}
유전체학(基因组)은유기체의유전체(게놈)서열,분석과관련된유전학의한분야입니다。이학문의주된목적은DNA의전체서열,DNA를구성하는원자의구성이나여러DNA원자사이의화학적결합형태를알아내는데있습니다。유전체학이라는분야의관심사는{. .}
하둡클러스터란무엇입니까?Apache Hadoop은오픈소스,Java기반소프트웨어프레임워크이자병렬식데이터처리엔진입니다。이를이용하면빅데이터분석처리작업을알고리즘(예:MapReduce)을사용해병렬식으로수행할수있는{. .}
HDFS HDFS(하둡분산형파일시스템)는하둡애플리케이션에서사용하는기본스토리지시스템입니다。이오픈소스프레임워크는노드사이에데이터를고속으로전송합니다。주로빅데이터를처리하고저장해야하는기업이사용하는경우가많습니다。Hdfs는여러하둡{. .}
하둡에코시스템이란무엇입니까?Apache Hadoop에코시스템이란Apache Hadoop소프트웨어라이브러리를이루는다양한구성요소를말합니다。오픈소스프로젝트는물론광범위한보조툴이많습니다。하둡에코시스템중가장잘알려진{. .}
컴퓨팅에서해시테이블[해시맵)은키(고유한문자열이나정수)를기반으로개체에사실상직접적인액세스를제공하는데이터구조를말합니다。해시테이블은해시함수를사용해인덱스를버킷이나슬롯어레이로연산하는데,여기에서원하는값을찾을수있습니다。여기에서{. .}
Hive날짜함수란무엇입니까?Hive는수많은기본내장함수를제공하여데이터처리와쿼리에도움이됩니다。이런함수가제공하는기능중에는문자열조작,날짜조작,타입변환,조건연산,자수학적함수등이있으며{. .}
托管Spark란무엇입니까?Apache火花는속도,사용편이성과고급분석을중심으로구축된빅데이터용고속,일반클러스터컴퓨팅시스템입니다。2009년에uc버클리에서처음구축되었습니다。Scala, Java, Python과R에서고수준API를제공하며최적화된엔진{. .}
木星笔记本이란무엇입니까?Jupyter노트북은오픈소스웹애플리케이션으로,데이터사이언티스트가라이브코드,식등의문서를만들고{. .}지원합니다。
Keras모델이란무엇입니까?Keras는Theano와Tensorflow기반의딥러닝용고차원라이브러리입니다。Python언어로쓰여광범위한딥러닝모델을깔끔하고편리하게제작할수있습니다。{. .}
리테일용레이크하우스란무엇가?리테일용레이크하우스는砖에서첫번째로출시한업종별레이크하우스입니다。솔루션액셀러레이터,데이터공유기능과파트너에코시스템을통해소매업체가빨리운영을정상화하도록돕습니다。{. .}
Lambda아키텍처란무엇입니까?λ아키텍처는엄청난대량의데이터(즉”빅데이터”)를처리하는방식의일종으로,하이브리드방식으로일괄처리나스트림처리방식을이용할수있게해줍니다。Lambda아키텍처는임의연산문제를해결하는데{. .}
Apache火花의머신러닝라이브러리(机器学习库,MLlib)는단순성,확장성,다른툴과의통합을염두에두고고안하였습니다。데이터사이언티스트는火花의확장성,언어호환성과속도를활용하여데이터문제점과모델에만집중할수있습니다。즉복잡한문제를해결하는것이아니라{. .}
머신러닝모델이란무엇입니까?머신러닝모델이란이전에접한적없는데이터세트에서패턴을찾거나이를근거로결정을내릴수있는프로그램입니다。예를들어자연어처리의경우,머신러닝모델은파싱을통해이전에접한적없는{. .}
管理Spark란무엇입니까?管理火花서비스를이용하면일괄처리,쿼리,스트리밍과머신러닝등을위한오픈소스데이터툴을유리하게활용할수있습니다。이러한자동화기능을이용하면필에따라신속하게클러스터를만들어간편하게관리하고,{. .}
MapReduce란무엇입니까?Apache Hadoop MapReduce는에코시스템에포함된java기반,분산형실행프레임워크입니다。개발자가구현하는두가지처리단계를노출하여분산형프로그래밍의복잡성을없애고{. .}
大奖章아키텍처란무엇입니까?大奖章아키텍처는{. .}을목표로레이크하우스에서논리적으로데이터를정리하는데사용하는데이터설계패턴입니다。
일반적으로머신러닝알고리즘을실행할때는전처리,기능추출,적합한모델찾기(模型拟合)과검증단계로구성된시퀀스를거쳐야합니다。예를들어텍스트문서를분류하는경우,텍스트조각화와정리,특징추출,클래스교육{. .}
MLOps란무엇입니까?MLOps는머신러닝작업(机器学习操作)을뜻합니다。MLOps는머신러닝모델을프로덕션으로전환하는프로세스를간소화하고,뒤이어이를유지관리하고모니터링하는데주안점을둔머신러닝엔지니어링의핵심기능입니다。MLOps는협업기능이며,주로{. .}
모델리스크관리란잘못된모델이나잘못사용된모델을근거로한의사결정으로인한잠재적인나쁜결과에서발생하는리스크를감독관리하는것을말합니다。모델리스크관리의목표는모델리스크를파악,계측하여완화할기법과관행을동원하는데있습니다。예를들어모델오류나…{. .}
신경망이란무엇입니까?신경망이란뇌속뉴런의망형구조를닮은다층형구조의컴퓨팅모델입니다。여기에는서로연결된처리소자,일명”뉴런“이라는것이있으며이들이서로협력하여출력함수를도출합니다。신경망을이루는{. .}
오픈뱅킹이란무엇입니까?오픈뱅킹은소비자의금융데이터에대한액세스권한을안전하게제공하는수단이며,모든것에고객의동의가필요합니다。²오픈뱅킹은규,제기술,경쟁역학의움직임속에서고객데이터를은행이아닌타사에민주화해야할필요성이{. .}
오케스트레이션이란무엇입니까?오케스트레이션은여러개의컴퓨터시스템,애플리케이션및/또는서비스를조율하고관리하는것으로,여러개의작업을함께연결하여크기가큰워크플로나프로세스를실행하는방식을취합니다。이러한프로세스는여러개의자동화된작업으로구성될수있습니다。{. .}
설비종합효율이란무엇일까?설비종합효율(oee)은제조운(시설,시간및재료)의운{. .}
데이터사이언스의경우,熊猫DataFrame으로데이터사이언스의모든잠재력을실현한다면기업의업무방식을혁신할수있다는말은전혀과장이아닙니다。그러려면적절한데이터{. .}
拼花란무엇입니까?Apache铺는효율적인데이터스토리지와검색을지원하도록설계되었으며,컬럼중심의오픈소스데이터파일형식입니다。복잡한데이터를일괄적으로처리하는기능을더욱향상하여효율적인데이터압축및인코딩방식을제공합니다。Apache Parquet는배치및터랙티브워크로드에{. .}
맞춤형금융이란무엇입니까?금융상품과서비스는점점더상품화되고,미디어와리테일산업에서개인화된경험을제공하는방향으로나아감에따라소비자도안목을높여가고있습니다。은행이경쟁력을유지하기위해서는{. .}
예측분석이란무엇입니까?예측분석(预测分析)은지능형분석의한가지형태입니다。새로운데이터와과거데이터를둘다사용하여패턴을파악하고향후결과와추세를예측합니다。예측분석은어떻게작용합니까?예측분석은여러가지기법을사용해{. .}
예측적유지관리란무엇입니까?예측적유지관리는간단히말해,고정된일정대신자산의실제조건이나상태를감안하여자산을관리해야하는시점과필요한유지관리활동을알아내서{. .}
PyCharm은컴퓨터프로그래밍에쓰이는통합형개발환경IDE(集成开发环境)으로Python프로그래밍언어에맞게제작되었습니다。砖에서PyCharm을사용하는경우,PyCharm이기본적으로Python가장환경을만들지만사용자가구성을통해Conda환경을만들도록할수도있고기존환경을사용해도됩니다。{. .}
PySpark란무엇입니까?Apache火花는Scala프로그래밍언어로작성되었습니다PySpark는Apache火花와Python의공동작업을지원하기위해릴리스되었으며,사실상용火花Python API의일종입니다。또한PySpark를사용하면RDD(弹性分布式数据集)와상호작용{. .}
소매업에서실시간데이터는무엇가?실시간리테일(实时零售)이란데이터에실시간액세스하는것을말합니다。배치중심액세스,분석,컴퓨팅에서벗어나면데이터를”언제든“사용할수있어정확하고시기적절하게의사결정을내리고비즈니스인텔리전스를얻을수있습니다。실시간{. .}
抽样는처음생겼을때부터晶石의기본사용자대상(面向用户)API였습니다。Rdd는본질적으로변경불가능하며분산형입니다。{. .}
스노우플레이크스키마란무엇입니까?스노우플레이크스키마는스타스키마를확장한다차원적데이터모델로,차원테이블을하위차원으로나뉩니다。스노우플레이크스키마는일반적으로버스{. .}
Spark를다루다보면다음과같은세가지API를접하게됩니다。数据帧,数据集와RDD의세가지입니다。Rdd란무엇입니까?抽样,즉弹性分布式数据集란분산형컴퓨팅을포함한레코드컬렉션으로본질적으로내결함성이있고변경불가능합니다。{. .}
火花애플리케이션은司机프로세스하나와일련의执行人프로세스로구성됩니다。司机프로세스는main()함수를실행하고클러스터내노드에위치하며세가지작업을담당합니다。하나는火花애플리케이션관련정보를유지하는것,사용자의프로그램에대응하는것또는{. .}
Spark Elasticsearch이란무엇입니까?火花Elasticsearch는NoSQL,분산형데이터베이스의일종으로문서중심적,반구조적(半结构化)데이터를저장,검색하고관리합니다。GitHub오픈소스이고,Apache Lucene기반RESTful검색엔진이기도하며Apache许可약관에따라릴리스된제품이기도합니다。{. .}
대다수의데이터사이언티스트,애널리스트,일반비즈니스인텔리전스사용자는데이터를탐색할때인터랙티브SQL쿼리에의존합니다。Spark SQL은구조적데이터처리를위한Spark모듈입니다。일명DataFrames라는프로그래밍추상화를제공하며이외에{. .}
Apache Spark Streaming은Apache Spark스트리밍엔진의전세대입니다。Spark Streaming은더이상업데이트되지않는오래된프로젝트입니다。Apache火花에는结构化流이라는새롭고간편한스트리밍엔진이있습니다。Spark Structured Streaming을사용해서{. .}
Spark성능튜닝이란무엇입니까?火花성능튜닝은시스템이사용하는메모리,코어와인스턴스를대상으로기록할설정을조정하는프로세스를가리킵니다。이프로세스를거치면火花에서흠잡을데없는성능을보장할수있으며,火花에서리소스병목현상을예방하는효과도{. .}
Sparklyr이란무엇입니까?R Sparklyr은사과Apache火花이에서인터페이스를제공하는오픈소스패키지입니다。이제Spark기능을최신R환경에서도활용할수있습니다。Spark는분산된데이터와상호작용할수있으면서도레이턴시가짧기때문입니다。Sparklyr은효과적{. .}
SparkR은Spark에서R을실행하는데쓰는툴입니다。이것도Spark의다른모든언어바远程服务器딩과마찬가지로같은원칙을따릅니다。SparkR을사용하려면환경에가져와코드를실행하기만하면됩니다。Python API전반적으로와아주비슷한데,Python이아니라R의구문을따른다는점만다릅니다。대체로{. .}
Python은일명numpy라는기본내장라이브러리를제공하여다차원배열을조작합니다。pytensor라이브러리를개발하려면기본적으로이라이브러리부터구성하고사용해야합니다。{. .}
스타스키마란무엇입니까?스타스키마는데이터베이스에서데이터를정리하는데사용하는다차원적데이터모델로,쉽게이해하고분석할수있습니다。스타스키마는데이터웨어하우스,데이터베이스,데이터마트등의도구에적용할수있습니다。스타스키마설계의최적화는{. .}
스트림분석은어떻게작용합니까?스트리밍분석은일명이벤트스트리밍처리라고도하며,최신데이터와“동작”중인데이터로구성된거대한데이터풀을분석합니다。이때사용하는지속적쿼리를이벤트스트림이라고합니다。이러한스트림은구체적marketing이벤트가트리거하며,이는발생{. .}
结构化流은스트림처리용고차API원의일종으로,火花2.2에서는바로프로덕션에적용할수있게되었습니다。结构化流을사용하면火花의구조적API를사용해배치모드로수행하는것과같은연산을스트리밍방식으로실행할수있습니다。이렇게하면레이턴시를줄이고{. .}
지난2015년월11日,谷歌에서머신러닝용오픈소스프레임워크를출시하며이를TensorFlow라명명했습니다。이것은딥러닝,신경망을물론cpu, gpu와gpu클러스터의일반적수리적연산을{. .}
Tensorflow Estimator API란무엇입니까?估计는완전한모델이지만적은사용자에게는충분히직관적으로보이기도합니다。估计API를사용하면모델을교육할방식,모델의정확도를판단할방식,예측을생성할방식을얻을수있습니다。{. .}
변환이란무엇입니까?火花에서코어데이터구조가변경불가능(不可变的)하다는것은일단생성하면변경할수없다는뜻입니다。이것은처음에는조금기이한개념으로여겨질수있습니다。변경할수없다면어떻게사용합니까?DataFrame을"변경"하려면{. .}
钨项目란무엇입니까?钨은Apache火花의실행엔진에변경사항을적용하여메모리및CPU를火花애플리케이션에적합하게효율성을개선하는데중점을두어성능을최신하드웨어한도에더가깝게밀어붙이고자추진한엄브렐라프로젝트의코드명입니다。{. .}
统一人工智能,즉UAI는Facebook에서올해F8중에발한개념입니다。이개념은Facebook이제작하고아웃소싱2한가지딥러닝프레임워크를합친것입니다。하나는대규모컴퓨팅리소스에액세스를보유한리서치중점적PyTorch이고,다른하나는咖啡로모델배포에주력합니다。{. .}
统一数据分析는새로운솔루션카테고리입니다。데이터처리를AI기술과통합하여기업에서AI를한결쉽게완성할수있게지원하여각자의AI이니셔티브진행속도를빠르게해줍니다。统一数据分析를이용하면기업에서데이터파이프라인을구축할때{. .}
砖의统一数据分析平台을이용하면데이터사이언스를엔지니어링,비즈니스와통bob体育客户端下载합하여혁신의속도를높여줍니다。砖를统一数据分析平台으로활용하면아무런한계없이엄청난규모로데이터를신속bob体育客户端下载하게준비하고정리할수있습니다。이플랫폼은{. .}
统一数据仓库란무엇입니까?기업의통합데이터베이스인엔터프라이즈데이터웨어하우스에는한기업조직의각종비즈니스정보가모두보관되어있어회사전체에서액세스할수있게해줍니다。오늘날대부분기업에서는데이터를서로격리된사일로에서관리하고,여러{. .}
Apache Hadoop是一个开源的、bob下载地址基于java的软件平台,用于管理大数据应用程序的数据处理和存储。bob体育客户端下载该平台的bob体育客户端下载工作原理是将Hadoop大数据和分析作业分布到计算集群中的节点上,将它们分解为可以在pa中运行的更小的工作负载{. .}