替代数据是什么?

替代数据收集的信息通过使用替代来源的数据其他人不使用;非传统的信息来源。替代数据的分析可以提供见解之外,一个行业的常规数据源提供的能力。然而,到底被认为是替代数据变化从一个行业到另一个,因为它取决于传统的数据源,你和你的竞争对手已经在使用。

典型的替代数据类型

当我们谈论替代数据,有几个主要应用的数据类型:

  • 卫星数据,
  • 移动数据
  • 传感器数据
  • 网络数据。

然而,替代数据还可以包括:

  • 地理位置(步行)
  • 信用卡交易
  • 电子邮件收据
  • pos交易
  • 社交媒体的文章
  • 在线浏览活动
  • 集装箱收据
  • 产品评论
  • 价格追踪器
  • 天气和素质
  • 飞行和航运追踪器

典型的替代数据类型

近年来,增加数据来自移动设备、卫星、传感器、和网站已经导致大量的结构化、半结构式和非结构化数据,我们参考下大数据的通用术语。使用替代数据可以获得独特的见解,行业竞争优势,提振了利润。您可以组合来自不同来源的数据集得到清晰的了解公司,市场竞争的风景。有三个主要方法,可用于替代数据的访问:

  • 采集的原始数据
  • 第三方授权
  • Web抓取(或网络收集,或网络数据提取)。web刮板是一种应用程序编程接口(API),从一个网站,能够提取数据采集关键见解所需的主题必须在你的行业。新形式的网页抓取涉及听力从web服务器数据feed。例如,JSON是常用的作为传输客户机和web服务器之间的存储机制。

自动抓取技术

  • HTML解析:HTML解析是通过使用Java脚本和目标线性或嵌套的HTML页面。
  • DOM解析:或DOM文档对象模型,定义了风格、结构和内容包含在XML文件中。
  • 垂直聚合:垂直聚合平台是由组织有一个巨大的计算能力是bob体育客户端下载针对特定的垂直。
  • XPath:XML路径语言或XPath是一种查询语言,可用于XML文档。
  • 谷歌文档:谷歌表可以使用几乎一样如果你写一个刮板在Python或Ruby这样的编程语言,因此,这是一个很好的和快速的方法引入某些类型的刮刀的基础知识。
  • 文本模式匹配:这是一个正则表达式匹配技术,使用UNIX grep命令,和棒状的流行的编程语言如Perl或Python。

额外的资源

回到术语表