대체데이터란무엇입니까?
대체데이터(替代数据)는남들이사용하지않는,비일반적인정보출처를가리키는대안적(替代)데이터소스를사용해수집한정보입니다。대체데이터를분석하면업계의평범한데이터소스가제공할수있는범위를벗어난인사이트를얻을수있습니다。다만정확히무엇을대체데이터로간주해야하는지는업종마다다릅니다。이개념의정의는우리회사나경쟁사가이미사용중인기존데이터소스의종류에좌우되기때문입니다。
일반적대체데이터유형
대체데이터라고할때주로사용되는데이터유형이몇가지있습니다。
다만다음과같은데이터도대체데이터라고볼수있습니다。
- 지리적위치(유동구)
- 신용카드트랜잭션
- 이메일수신
- POS(销售点)트랜잭션
- 소셜미디어게시물
- 온라탐색활동
- 선적컨테이너수
- 제품 리뷰
- 가격추적기
- 날씨와미세기후(微气候)
- 항공및선박추적데이터
최근몇년간모바일디바이스,위성,센서와웹사이트에서유입되는데이터가증가하면서엄청난양의구조적,반구조적,비구조적데이터가생겼습니다。이것을통상‘빅데이터’라고합니다。대체데이터를사용하면고유한인사이트,업계에서의경쟁우위를얻고이윤을극대화할수있습니다。다양한소스에서얻은데이터세트를조합해회사별,경쟁시장현황의명확한개요를파악할수있습니다。대체데이터에액세스하는데사용할수있는방법은크게세가지입니다。
- 원시데이터획득
- 타사라이선싱
- 웹스크레이핑(또는웹하베스팅이나웹데이터추출이라고도함)웹스크레이퍼는API(应用程序编程接口)의일종으로,웹사이트에서데이터를추출하며업계에서크게성공하는데필요한바람직한주제에관한주요인사이트를수집할줄압니다。최신웹스크레이핑형식의경우웹서버에서유입되는데이터피드를수신하는것도있습니다。예를들은어JSON클라이언트와웹서버사이의전송스토리지메커니즘으로흔히쓰입니다。
자동스크레이핑기법
- HTML파싱:HTML파싱은Java스크립트를이용해수행하며,선형또는중첩형HTML페이지가표적입니다。
- Dom파싱:XML DOM(文档对象模型)은파일내에포함된스타일,구조와내용을정의합니다。
- 업종집계(垂直聚合):업종집계플랫폼은특정업종을표적화하는엄청난컴퓨팅파워가특징이며,기업조직에서만듭니다。
- XPath:XML XML路径语言,즉XPath는문서에사용할수있는쿼리언어입니다。
- 谷歌文档:Ruby谷歌시트는Python이나와같은프로그래밍언어로스크레이퍼를쓰는것과거의다름없이사용할수있기때문에특정유형의스크레이퍼기본요소를신속하게도입하기좋습니다。
- 텍스트패턴매칭:이것은UNIX grep명령을사용하는정규식매칭기법으로,Perl또는Python과같은대중적인프로그래밍언어와함께씁니다。