工程的博客

解决方案加速器:电信客户流失预测器

分享这篇文章

请查看解决方案加速器下载本博客中提到的笔记。

当T-Mobile接受“非运营商”标签时,他们不仅仅是发起了一场营销活动;他们从根本上改变了美国电信市场的动态。此前,电信业一直是一个保守的公用事业类行业,增长稳定,用户需要签订两年的“免费”手机套餐合同。但有三个因素改变了这个行业的性质:

  1. 从2004年开始,用户可以更换手机运营商,但保留自己的电话号码,从而消除了更换运营商的最大障碍之一。
  2. 不断上涨的手机价格导致运营商停止了对手机的补贴,从而导致了手机计划合同的取消。
  3. T-Mobile凭借激进的数据套餐定价和增加的广告支出,赢得了市场份额,为此前的双头垄断带来了强大的第三个竞争对手。

这些快速变化的动态使电信提供商从公用事业公司转变为跨多个业务线的增值服务提供商,包括宽带、安全、有线电视和流媒体视频服务。这一点,再加上来自新进入者的竞争加剧,加速了通信服务提供商在所有渠道的个性化、无摩擦客户体验方面的投资。构建这些体验的核心是了解现有客户在订阅生命周期中的位置,特别是确定那些最有可能流失的客户。减少客户流失率仍然是每个供应商最关注的战略领域之一,许多流失率计划的目标是预测客户生命周期事件,并找到有利可图地延长生命周期的方法。

介绍来自Databricks的电信客户流失预测解决方案加速器

基于我们与领先通信服务提供商合作的最佳实践,我们开发了用于常见分析和机器学习用例的解决方案加速器,为您的数据工程师和数据科学家节省数周或数月的开发时间。

这个解决方案加速器补充了我们的工作客户生命周期价值订阅服务的减员,有利可图的客户保留,但使用的是电信专用镜头。

使用样本电信数据集IBM,以及生命线库,此解决方案加速器将:

  • 介绍生存分析,一种统计方法的集合,用于检查和预测时间,直到感兴趣的事件发生。
  • 回顾三种常用的生存分析方法:Kaplan-Meier, Cox比例风险,加速失效时间。
  • 建立一个流失预测模型,并使用模型输出作为计算生命周期价值的输入。
  • 构建一个交互式仪表板,用于计算给定用户队列在三年时间范围内的净现值。

这个解决方案加速器的内容包含在Databricks笔记本中,链接到本文的末尾。

关于生存分析

生存分析是一种统计方法的集合,用于检查和预测相关事件发生之前的时间。这种分析形式起源于医疗保健领域,关注的是死亡时间。从那时起,生存分析已经成功地应用到全球几乎所有行业的用例中。

特别是在Telco,用例包括:

  • 客户保留:人们普遍认为用户留存成本低于用户获取成本。由于兴趣事件是服务取消,电信公司可以通过使用生存分析来更好地预测特定时间点的客户可能面临流失风险,从而更有效地管理客户保留工作。
  • 硬件故障:客户对您的产品和服务的体验质量在决定续订或取消时起着关键作用。网络本身就是这种体验的中心。将故障时间作为感兴趣的事件,生存分析可用于预测硬件何时需要维修或更换。
  • 设备和数据计划升级:在客户生命周期的关键时刻,他们的计划会发生变化。由于感兴趣的事件是计划变更,因此可以使用生存分析来预测何时发生这种变更,然后可以采取行动对选定的产品或服务产生积极影响。

与其他表面上看起来相似的方法(如线性回归)相比,生存分析考虑了审查。审查当测量值的开始和/或结束未知时发生。例如,假设我们的历史数据包括下面两个客户的记录。以客户A为例,我们知道订阅的准确持续时间,因为客户在2020年12月流失了。对于客户B,我们知道合同是4个月前开始的,现在仍然有效,但我们不知道他们还会是客户多久。这是一个权利审查的例子,因为我们还不知道测量值的结束日期。权利审查是我们在这种形式的分析中最常见的。

客户 订阅开始日期 订阅结束日期 订购时间 活跃订阅标志
一个 2020年2月3日 2020年12月2日 10个月 0
B 2020年11月11日 - 4个月 1
由生存分析机器学习模型生成的客户生存概率曲线
图1:生存概率曲线

如上所述,我们可以将客户B的持续时间往前推4个月,但这会导致低估生存时间。当使用生存分析时,由于考虑了审查,这个问题得到了缓解。

在生产中使用生存分析

在考虑了审查后,生存分析机器学习模型的关键输出是生存概率曲线。如下图所示,生存概率曲线以时间为x轴,以生存概率为y轴。从0个月开始,这个图表可以解释为:客户至少停留0个月的概率是100%。这由点(0,1.0)表示。同样地,生存曲线向下移动到中位数(34个月),表明客户有50%的概率存活至少34个月,前提是他们已经存活了33个月。请注意,最后一个从句“given that…”表示这是一个条件概率。

在构建模型和/或分析模型进行推理时,可视化生存概率曲线特别有用。然而,在许多情况下,最终目标是使用生存分析模型的输出作为另一个模型的输入。例如,在这个解决方案加速器中,我们使用生存分析模型的输出作为计算客户生命周期价值的输入。然后,我们构建一个应用程序,该应用程序提供了在三年时间范围内给定用户队列的净现值的可见性。这很强大,因为它使营销人员能够了解各种新客户获取活动的回收期。类似地,可以使用我们在这个解决方案加速器中构建的生存分析模型的输出,将营销信息与消费者在其客户旅程中的位置相匹配。

在实践中,在生产中支持这些类型用例的参考体系结构类似于以下:

支持客户流失预测用例的推荐分析架构。

开始

这个解决方案加速器的目标是帮助您尽可能快地利用生存分析来实现您自己的客户保留用例。因此,该解决方案加速器包含了常用方法的深入回顾:Kaplan-Meier, Cox比例风险和加速故障时间。从今天开始导入这个解决方案加速器直接进入你的Databricks工作区。您也可以观看我们的点播网络研讨会电信生存分析

免费试用Databricks
看到所有工程的博客的帖子