跳转到主要内容
bob体育客户端下载平台的博客

新解决方案加速器:客户实体解析

构建一个ML-based Customer360 Zingg
分享这篇文章
检查我们的新客户实体解析方案加速器更多的细节和下载的笔记本。

现在越来越多的客户希望个性化交互作为他们的购物体验的一部分。是否浏览应用程序内,接收提供了通过电子邮件或在线广告所追求,越来越多的人希望他们的品牌互动认识到个人的需求和喜好,相应地裁缝订婚。事实上,76%的消费者更有可能考虑购买一个品牌拟人化了。组织追求卓越omnichannel,这些相同的高期望通过digitally-assisted扩展到店内体验员工互动,提供专门的面对面服务等等。在一个顾客选择的时代,越来越多的零售商越来越个性化的订婚的消息成为吸引和留住客户花的基础。

正确个性化交互的关键是获得可行的见解从每一点可以收集客户的信息。自身生成的数据通过销售交易、网站浏览,产品评级和调查、客户调查和电话支持中心、第三方数据从数据聚合器和购买在线追踪器,甚至zero-party客户自己提供的数据形成一个360度的客户视图。在讨论客户- 360平台往往集中在体积和各种数据的组织必须工作和数据科学的范围bob体育客户端下载用例经常应用于他们,现实是离不开客户- 360视图建立公共客户身份,客户记录在不同的数据集联系在一起。

匹配的客户记录是具有挑战性的

从表面上看,确定公共客户身份跨系统的想法似乎很简单。但不同数据源之间不同的数据类型,是罕见的一个独特的标识符是用于支持记录链接。相反,大多数数据源都有自己的标识符是翻译成基本名称和地址信息来支持cross-dataset记录匹配。撇开客户属性的挑战,因此数据,可能会改变随着时间的推移,自动匹配名称和地址可以非常具有挑战性由于非标准格式和通用数据解释和输入错误。

例如我们的一个作者的名字:布莱恩。这个名字已经被记录在不同的系统布莱恩,布莱恩,瑞安,拜伦甚至大脑。如果布莱恩住在主要街123号,他可能会发现这个地址输入主要街123号,123年主要圣123年主要在各种系统中,所有这一切都是完全有效的,即使不一致。

人工翻译,记录与客户的共同变化的名称和公认一个地址的变化很容易匹配。但与数以百万计的客户身份大多数零售组织都面临着,我们需要依靠软件自动化这个过程。大多数第一次往往捕捉人类知识已知的变化规则和模式匹配的记录,但这往往会导致大量的和有时不可预知的网络软件的逻辑。为了避免这种情况,越来越多的组织面对的挑战基于变量属性的匹配客户发现自己把机器学习。

机器学习提供了一个可伸缩的方法

机器学习(ML)实体解析方法,文本属性名称,地址,电话号码等转换成数值可以用来量化表征之间的相似程度,任何两个属性值。模型训练来权衡这些分数的相对重要性决定如果一条匹配的记录。

例如,轻微的名字的拼写差异可以没有那么重要如果一个完美匹配之间找到一个电话号码。在某些方面,这种方法反映了人类自然倾向时使用检查记录,同时更可伸缩的和一致的应用在大型数据集。

说,我们培训这样一个模型的能力取决于我们获得准确的标记的训练数据,即。对由专家进行审查并贴上一个记录匹配或不匹配。最终,数据我们知道是正确的,我们的模型可以从早期阶段的大多数ML-based实体解析方法,一个相对较小的子集对可能适合彼此组装,注释和美联储对模型算法。这是一个耗时的运动,但如果处理得当,该模型学习反映人类的评论者的判断。

训练模型在手,我们的下一个挑战是有效地定位记录对值得比较。一个简单的方法来记录比较会比较每个记录的每一个另一个数据集。虽然简单,这种蛮力方法结果的比较,计算得到迅速失控。

更聪明的方法是认识到类似的记录将会有类似的数值分数分配给它们的属性。通过限制比较这些记录在一个给定的距离(基于这些分数的差异),我们可以快速定位价值的比较,即。候选人对。同样,这类似于人类的直觉我们迅速消除两个记录的详细比较,如果这些记录的名字托马斯。威廉地址在完全不同的州或省。

一起将这两个元素的方法,我们现在有一个方法来快速识别记录成对比较和价值的一种手段得分每一对匹配的可能性。这些成绩提出了概率在0.0和1.0之间,捕获模型的信心,两个记录表示同一个人。极端的概率范围,我们通常可以定义阈值高于或低于我们只是接受模型的判断和继续前进。但是在中间,我们只剩下一套(希望小)的对人类专家再次需要做出最终判断。

Zingg简化ML-Based实体解析

领域实体解析的技术,这些技术的变化和发展的最佳实践,研究人员发现有效识别质量匹配在不同的数据集。而不是维持所需的专业知识应用最新的学术知识的挑战,如客户身份决议,许多组织依赖库封装这些知识来构建他们的应用程序和工作流。

就是这样一个图书馆Zingg,一个开源bob下载地址库结合最新的智能候选人对一代和pair-scoring ML-based方法。面向建设的自定义工作流,Zingg的上下文中提供了这些功能普遍采用的步骤如训练数据标签赋值,模型训练数据集重复数据删除和(cross-dataset)记录匹配。

建立本地Apache火花应用,Zingg尺度以及将这些技术应用于企业级的数据集。组织可以使用Zingg砖等结合平台提供后端human-in-the-middle自动化工作流应用程序的大部bob体育客户端下载分实体解析工作和现在数据专家更易于管理的边界情况对来解释。作为一个主动学习解决方案,模型可以接受再培训,利用这额外的人工输入提高未来的预测,进一步减少病例的数量需要专家审查。

看到这是如何工作的感兴趣?那么,请一定要检查砖客户实体解析方案加速器。在这个加速器,我们展示客户实体解析的最佳实践可以应用利用Zingg和砖删除处理记录代表500万人。通过提供一步一步的指示后,用户可以了解这些技术提供的积木可以组装,使自己的企业级客户实体解析的工作流应用程序。

免费试着砖

相关的帖子

看到所有bob体育客户端下载平台的博客的帖子