替代数据是什么?
替代数据收集的信息通过使用替代来源的数据其他人不使用;非传统的信息来源。替代数据的分析可以提供见解之外,一个行业的常规数据源提供的能力。然而,到底被认为是替代数据变化从一个行业到另一个,因为它取决于传统的数据源,你和你的竞争对手已经在使用。
典型的替代数据类型
当我们谈论替代数据,有几个主要应用的数据类型:
然而,替代数据还可以包括:
- 地理位置(步行)
- 信用卡交易
- 电子邮件收据
- pos交易
- 社交媒体的文章
- 在线浏览活动
- 集装箱收据
- 产品评论
- 价格追踪器
- 天气和素质
- 飞行和航运追踪器
近年来,增加数据来自移动设备、卫星、传感器、和网站已经导致大量的结构化、半结构式和非结构化数据,我们参考下大数据的通用术语。使用替代数据可以获得独特的见解,行业竞争优势,提振了利润。您可以组合来自不同来源的数据集得到清晰的了解公司,市场竞争的风景。有三个主要方法,可用于替代数据的访问:
- 采集的原始数据
- 第三方授权
- Web抓取(或网络收集,或网络数据提取)。web刮板是一种应用程序编程接口(API),从一个网站,能够提取数据采集关键见解所需的主题必须在你的行业。新形式的网页抓取涉及听力从web服务器数据feed。例如,JSON是常用的作为传输客户机和web服务器之间的存储机制。
自动抓取技术
- HTML解析:HTML解析是通过使用Java脚本和目标线性或嵌套的HTML页面。
- DOM解析:或DOM文档对象模型,定义了风格、结构和内容包含在XML文件中。
- 垂直聚合:垂直聚合平台是由组织有一个巨大的计算能力是bob体育客户端下载针对特定的垂直。
- XPath:XML路径语言或XPath是一种查询语言,可用于XML文档。
- 谷歌文档:谷歌表可以使用几乎一样如果你写一个刮板在Python或Ruby这样的编程语言,因此,这是一个很好的和快速的方法引入某些类型的刮刀的基础知识。
- 文本模式匹配:这是一个正则表达式匹配技术,使用UNIX grep命令,和棒状的流行的编程语言如Perl或Python。