Saigopal Thota

沃尔玛实验室首席数据科学家

    Saigopal Thota是沃尔玛实验室负责客户身份识别的首席数据科学家。他的工作领域包括图优化算法,为数据质量开发ML算法,可扩展实时和批处理系统。赛戈帕尔拥有加州大学戴维斯分校的计算机科学博士学位。

    过去的会议

    2020年峰会 在异构数据上构建身份图

    2020年6月24日下午05:00 PT

    在当今世界,客户和服务提供商(如社交网络、广告定位、零售等)通过各种模式和渠道进行互动,如浏览器、应用程序、设备等。在每个这样的交互中,使用一个令牌来标识用户(每个模式/通道可能有不同的令牌)。这种身份标记的例子包括cookie、应用id等。随着用户更多地使用这些服务,属于同一用户的令牌之间产生了联系;连杆将多个标识符号连接在一起。一个具有挑战性的问题是将用户的身份统一到单个连接的组件中,以提供统一的身份视图。这种能力需要超越渠道,创造真正的统一身份。由于每个交互或事务事件都包含某种形式的标识,因此需要一个高度可伸缩的平台来标识属于用户的标识并将其链接为连接的组件。bob体育客户端下载因此,我们使用Spark处理引擎构建了Identity Graph平台,并使用bob体育客户端下载了带有路径压缩的分布式Union-find算法。

    现就以下事项提出建议:

    • 构建高度可扩展的身份图平台的旅程,每天处理250多亿个顶点和300多亿个边,以及增加2亿个新链接。bob体育客户端下载
    • 为什么我们选择使用Spark而不是其他分布式图形数据库来构建我们自己的图形处理框架。
    • 我们如何处理数据质量挑战。
    • 为克服构建和遍历Graph时面临的可伸缩性和性能挑战而实现的优化策略。
    • 一个在线版本的身份图,以支持实时的图形构建,查询和遍历

    导读:

    • 使用Spark构建高度可伸缩的Graph框架的可行性。
    • 实时构建和利用Graph来实现新鲜度的想法。