新的解决方案加速器:客户实体解决方案

用zing构建基于ml的Customer360

通过路加福音Bilbro，声音的Goyal，布莱恩史密斯而且咪咪Qunell

2022年8月4日在bob体育客户端下载平台的博客

分享这篇文章

查看我们的新客户实体解决方案加速器欲知详情，请下载笔记本。

现在，越来越多的顾客期望个性化的互动成为他们购物体验的一部分。无论是浏览应用内的内容，还是通过电子邮件接收促销信息，还是被在线广告吸引，越来越多的人希望与他们互动的品牌能够认识到他们的个人需求和偏好，并相应地调整用户粘性。事实上,76%的消费者更有可能考虑购买个性化的品牌。随着企业追求全渠道的卓越，这些同样的高期望正在通过数字辅助员工互动、提供专门的面对面服务等扩展到店内体验。在消费者选择越来越多的时代，零售商得到的信息是，个性化的参与正在成为吸引和留住客户支出的基础。

获得正确的个性化交互的关键是从可以收集到的关于客户的每一点信息中得出可操作的见解。通过销售交易、网站浏览、产品评级和调查、客户调查和支持中心电话产生的第一方数据，从数据聚合器和在线跟踪器购买的第三方数据，甚至客户自己提供的零方数据汇集在一起，形成了一个360度的客户视图。虽然关于customer -360平台的讨论倾向于关注组织必须使用的数据的数量bob体育客户端下载和种类，以及通常应用于它们的数据科学用例的范围，但现实是，如果不建立一个公共的客户身份，将跨不同数据集的客户记录链接在一起，就无法实现customer -360视图。

匹配客户记录很有挑战性

从表面上看，确定跨系统的公共客户标识的想法似乎非常简单。但是在具有不同数据类型的不同数据源之间，很少使用唯一标识符来支持记录链接。相反，大多数数据源都有自己的标识符，这些标识符被转换为基本的名称和地址信息，以支持跨数据集记录匹配。先不考虑客户属性和数据可能随时间变化的挑战，由于非标准格式和常见的数据解释和输入错误，名称和地址的自动匹配可能是非常具有挑战性的。

以我们其中一位作者的名字为例:布莱恩．这个名字在各种系统中被记录为布莱恩，布莱恩，瑞安，拜伦甚至大脑．如果布莱恩住在主街123号，他可能会发现这个地址输入为主街123号，主街123号或123年主要在不同的系统中，所有这些都是完全有效的，即使不一致。

对于人工翻译人员来说，客户姓名的常见变化和被普遍接受的地址变化的记录很容易匹配。但是，要匹配大多数零售组织面临的数百万客户身份，我们需要依靠软件来自动化这一过程。大多数第一次尝试都倾向于获取规则和模式中已知变化的人类知识，以匹配这些记录，但这通常会导致难以管理，有时是不可预测的软件逻辑网络。为了避免这种情况，越来越多的组织面临着基于可变属性匹配客户的挑战，他们发现自己转向了机器学习。

机器学习提供了一种可扩展的方法

在实体解析的机器学习(ML)方法中，名称、地址、电话号码等文本属性被转换为可用于量化任意两个属性值之间的相似程度的数值表示。然后，模型被训练来衡量这些分数的相对重要性，以确定一对记录是否匹配。

例如，如果找到一个完全匹配的名字，比如电话号码，那么名字拼写之间的微小差异就不那么重要了。在某些方面，这种方法反映了人们在检查记录时使用的自然趋势，同时在跨大型数据集应用时具有更强的可扩展性和一致性。

也就是说，我们训练这样一个模型的能力取决于我们对准确标记的训练数据的访问，即。由专家审查并标记为a匹配与否．最终，我们所知道的数据是正确的，我们的模型可以从这些数据中学习。在大多数基于ml的实体解析方法的早期阶段，相对较小的可能彼此匹配的对子集被组装、注释并馈送到模型算法中。这是一项耗时的工作，但如果做得正确，模型将学会反映人类评审员的判断。

有了训练有素的模型，我们的下一个挑战是有效地定位值得比较的记录对。记录比较的一种简单方法是将每个记录与数据集中的其他记录进行比较。虽然简单明了，但这种蛮力方法会导致计算上迅速失控的比较爆炸。

一种更聪明的方法是认识到类似的记录将为它们的属性分配类似的数值分数。通过将比较限制在给定的记录中距离(基于这些分数的差异)，我们可以迅速找到有价值的比较，即。候选人对。这再次反映了人类的直觉，因为如果这两个记录的名字是，我们就会迅速从详细的比较中删除这两个记录托马斯。而且威廉或者地址完全不同的州或省。

将我们的方法中的这两个元素结合在一起，我们现在有了一种快速识别值得比较的记录对的方法，以及一种为每对匹配的可能性打分的方法。这些分数以0.0到1.0之间的概率表示，这捕获了模型的置信度，即两条记录代表同一个人。在概率范围的极端端，我们通常可以定义高于或低于该阈值的阈值，然后简单地接受模型的判断并继续前进。但在中间，我们只剩下一组(希望数量很少)配对，再次需要人类的专业知识来做出最后的判断。

Zingg简化基于ml的实体解析

实体解析领域充满了技术，这些技术的变体和不断发展的最佳实践，研究人员发现，这些技术可以很好地识别不同数据集上的质量匹配。许多组织不是维护将最新学术知识应用于客户身份解析等挑战所需的专业知识，而是依赖于封装这些知识的库来构建其应用程序和工作流。

一个这样的库是Zingg，这是一个bob下载地址开源库，汇集了最新的基于ml的方法来智能生成候选人配对和配对评分。面向自定义工作流的构建，Zingg在常用步骤(如训练数据标签分配、模型训练、数据集重复数据删除和(跨数据集)记录匹配)的上下文中展示了这些功能。

作为原生Apache Spark应用程序构建的Zingg可以很好地将这些技术应用于企业规模的数据集。然后，组织可以将Zingg与Databricks等平台结合使用，为中间人工作流应用程序提供后端，这些应用程bob体育客户端下载序可以自动化大量的实体解析工作，并为数据专家提供一组更易于管理的边界case对来解释。作为一种主动学习解决方案，模型可以被重新训练，以利用这种额外的人力投入来改善未来的预测，并进一步减少需要专家审查的案例数量。

想知道这是如何工作的吗?那么，请务必查看数据库客户实体解决方案加速器．在这个加速器中，我们将展示如何利用Zingg和Databricks应用客户实体解决方案的最佳实践，以消除代表500万个人的重复记录。通过遵循所提供的逐步说明，用户可以了解如何组装这些技术提供的构建块，以支持他们自己的企业级客户实体解决工作流应用程序。

免费试用Databricks

开始