地图和意义:基于Apache火花& GraphX实体解析

下载幻灯片

数据集成和繁琐的数据提取的自动化任务的基本构建块是一个数据驱动的组织和有时被忽视或低估。除了数据提取,刮和ETL任务,实体解析成功结合的数据集是一个至关重要的一步。数据源通常的组合提供了丰富的特性和差异。建立一个专业的实体解析对工程成功结合数据源的数据很重要。基于实体解析算法已成为一个非常有效的方法。

这个演讲将化图形实体解析的实现技术在GraphX GraphFrames分别。工作从概念,通过如何实现算法在火花,技术也会走过一个实际的例子所示。这项技术将展示一个例子,功效可以实现基于简单的启发式,同时路径映射到机器学习辅助实体解析引擎与一个强大的知识图的中心。

毫升的角色可以找到上游构建图,例如通过使用分类算法在确定节点基于数据之间的联系强度,或下游,降维可以在集群中发挥作用,减少计算负载在决议阶段。观众将有一个清晰的照片一个可伸缩的数据管道执行实体解析有效和全面了解的内部机制,准备把它应用到他们的用例。



«回来
亨德里克•Frentrup约

Systemati.co

•是systemati的创始人。有限公司-工程和数据科学咨询公司。之前,他曾作为一个数据科学家完全沉浸在分布式计算基础设施开发应用程序,编写分析代码和机器学习管道在Apache火花。他发现世界的高性能计算和parallelisation在2000年代早期,但很高兴没有远程登录到主机集群了。