基于机器学习项目为零售商和品牌匹配

通过路加福音Bilbro,布莱恩史密斯和Rob猎隼

2021年5月24日在工程的博客

分享这篇文章

项匹配的是在线市场的核心功能。确保一个优化客户体验,零售商比较新的和更新的产品信息和现有的清单,以确保一致性和避免重复。在线零售商与他们的竞争对手也比较清单来确定价格和库存的差异。供应商提供的产品在多个站点可以检查他们的产品是如何确保一致性的标准。

需要有效的项目匹配肯定不是局限于电子商务。几十年来,需求信号存储库(域)承诺消费产品制造商的能力将补充订单数据与零售商销售点和银团市场数据制定一个更全面的需求。然而,DSR是有限的价值通过制造商的程度可以解决他们的产品定义和这些产品描述之间的差异在许多零售合作伙伴。bob体育外网下载

共同的挑战将这些类型的数据已经在所需的手动工作来匹配不同的数据集。我们很幸运有万能钥匙在某些领域,使数据集之间的直接联系,但在大多数场景并非如此——我们不得不使用专家知识来确定哪些项目有可能对,哪些是不同的。正是因为这一原因,跨各种不同的数据集通常是时间最长的匹配项的步骤在任何复杂的数据项目,这一步必须重复在一个持续的基础上添加新产品。

大量和持续尝试标准化产品代码可以追溯到1970年代强调这一挑战的普遍性也固执。基于规则和概率(模糊)匹配技术演示软件的潜力进行合理有效的产品匹配不完美的数据,但通常这些工具是有限的数据支持,他们能够被定制和扩展能力。随着机器学习,大数据平台和云计算,我们有潜力发展这些技巧和克服这些挑战。bob体育客户端下载

计算产品的相似之处

为了说明如何可以做到这一点,让我们先看一下产品信息如何被用来匹配两个项目。在这里,我们有两个列表,一个abt.com和另一个buy.com,作为Abt-Buy捕获数据集引用在这里,已经决心是相同的产品:

abt:电冰箱24“白色内置洗碗机——FDB130WH买:电冰箱FDB130RGS 24”内置的洗碗机(白色)

作为消费者,我们都看的名称和确定网站描述类似产品。码,上的细微差异,即FDB130WH FBD130RGS,可能会导致一些混乱,但我们可以查看产品描述,技术规格等网站,以确定这些设备都是相同的。但是我们如何指导计算机做同样的工作吗?

首先,我们可能会分裂成单词的名字,规范词情况下,删除任何标点符号,放任何安全地忽略这样的词,为治疗之前剩下的元素,作为一个unsequenced集合(袋)的单词。在这里,我们为匹配的产品,这样做排序的单词只是简单的视觉比较:

abt:[建立fdb130wh电冰箱,24日,洗碗机,白色)买:[建立fdb130rgs电冰箱,24日,洗碗机,白色)

我们可以看到,大部分单词都是相同的。唯一的变化在产品代码,即使如此,这种变化发生在最后的两个或三个字符。如果我们把这些单词分解成字符序列,(即。基于字符的字格),我们可以更容易地比较详细的单词:

abt:(星期五,钻机、igi gid,艾达,戴,空气,愤怒,再保险公司身上,db1、十三区最,130年30 w, 0 wh wh,…]
买:[星期五、操纵、igi gid,艾达,戴,空气,愤怒,再保险公司身上,db1、十三区最,130年30 r,该公司,gs,…]

每个序列然后得分的名称和他们的整体内发生的频率出现在所有产品名称与non-represented序列被得分为零:

星期五,钻机、igi gid,艾达,戴,空气,愤怒,再保险公司身上,db1、十三区最,130年30 w 30 r, 0 wh wh,该公司,gs,……
abt: 0.17, 0.19, 0.17, 0.13, 0.13, 0.17, 0.18, 0.20, 0.12, 0.14, 0.17, 0.18, 0.19, 0.02, 0.00, 0.13, 0.18, 0.00, 0.00,……
买:0.17,0.19,0.17,0.13,0.13,0.17,0.18,0.20,0.12,0.14,0.17,0.18,0.19,0.00,0.03,0.00,0.00,0.15,0.17,……

被称为TF-IDF得分,这自然语言处理(NLP)技术允许我们我们的字符串比较的问题转换成一个数学问题。这两个字符串之间的相似现在可以计算的平方之和的对齐值之间的差异,大约0.359这两个字符串。相比其他潜在的匹配对这些产品,这个值应该是最低的,说明实际匹配的可能性。

提出的一系列步骤绝不是详尽的产品名称。特定的模式在一个特定领域的知识可能会鼓励其他的使用,更加成熟,数据准备,但最简单的方法常常是令人惊讶的有效的。

时间序列的文本如产品描述,基于字格TF-IDF得分和文本嵌入分析文本块的联想词可能提供更好的评分方法。图像数据,类似的方法嵌入也可以应用,允许更多的信息纳入考虑。零售商如沃尔玛已经证明,任何有用的信息在确定产品相似性可能使用。简单的将这些信息转化为一个数值表示的距离相似或相关措施可以派生。

处理数据爆炸

由于建立了依据确定的相似之处,我们的下一个挑战是有效地比较各个产品。要理解这一挑战的规模,考虑比较相对较小的数据集10000 t对一组不同的10000的产品。需要评估产品对1亿进行了详尽的比较。虽然不是一个不可能的挑战(尤其是考虑到云资源的可用性),更有效的快捷方式可以让我们关注那些对彼此更相似。

Locality-Sensitive哈希(激光冲徊化)提供了一种快速、有效的方法。激光冲徊化过程是通过随机细分产品,产品具有类似数字分数可能驻留在同一组。的随机特性细分意味着两个非常相似的产品可能会发现自己在不同的团体,但通过多次重复这一过程,我们增加的概率两个非常相似的项目将在同一组至少一次土地。这都是我们需要考虑进一步评估候选人。

识别匹配

与我们的注意力集中在产品最有可能匹配,我们转向实际比赛的决心。利用相似性得分每个产品派生属性考虑,我们现在寻求那些分数转换成匹配概率。

这不是一个简单的过程,应用已知的公式和权衡每个属性到一个单一的预测。相反,我们必须依靠ML算法学习expert-matched双并确定应该如何结合这些分数到达一个概率。典型的模型开发运动开始于一组有限的产品手动为匹配,评估候选人的产生对产品的使用在这个练习,然后任意数量的迭代训练二进制分类算法直到一个合理的结果。