工程的博客

按需网络研讨会:大规模的颗粒需求预测

分享这篇文章

我们最近举办了一个网络研讨会星巴克如何利用Facebook Prophet和Databricks预测大规模需求-在本次网络研讨会中,我们了解了为什么需求预测对零售/ CPG公司至关重要,以及它如何实现22个其他用例。星巴克数据科学经理Brendan O’shaughnessy向我们介绍了星巴克是如何进行大规模需求预测的。我们还使用Databricks和Facebook的Prophet一步一步地演示了如何在一天/商店/SKU级别执行细粒度需求预测

使用Databricks实现金融时间序列分析的民主化。

网络研讨会的幻灯片可以在这里

为什么要进行细粒度需求预测,星巴克是如何做到的?

对日存储sku执行细粒度预测超出了传统的、基于数据仓库的预测工具的能力。对产品的需求因产品、商店和日期而异,然而传统的需求预测解决方案在总市场、周和促销组级别执行预测。

随着Databricks统一数据分析平台的引入,零售商能够看到他们的预测准确性有两位数的提高。bob体育客户端下载他们可以在SKU、商店和当天执行细粒度的预测,并包括数百个额外的功能,以提高模型的准确性。他们可以通过本地化和容易地包含额外的数据集来进一步增强他们的预测。他们每天都在运行这些预测,为他们的规划人员和零售运营团队提供及时的数据,以便更好地执行。

在本次网络研讨会中,我们回顾了:

  • 如何使用Databricks在一天/商店/SKU级别上执行细粒度的需求预测
  • 如何使用时间序列数据精确预测Facebook的先知
  • 同时,如何星巴克自定义预测相对容易吗
  • 如何利用事实分布式数据处理引擎训练大量模型;Apache火花™
  • 最后,我们将这些数据呈现给分析师和管理人员BI工具使所需的决策制定能够驱动所需的业务结果

在网络研讨会的最后,我们进行了问答。以下是问题和答案:

问:您使用什么模型版本控制技术来显示模型是如何随着时间的推移而改进的?

我们的许多客户使用MLflow跟踪他们的实验。他们可以使用MLflow跟踪与这些模型相关的各种参数,并跨模型比较性能指标。这有助于跟踪改进以及他们用来绘制见解的库。MLflow帮助这些模型更快地从实验到生产。

问:为什么使用udf而不是MLlib吗?这是为了访问吗SciKit学模型?

我们正在使用udf所以我们可以灵活地利用任意数量的库。Facebook的先知现在非常流行,但是我们可以使用许多库来处理时间序列。有些在某些情况下比其他更合适。因此,通过使用udf,我们在利用并行化的同时获得了最大的灵活性。

问:如何?三角洲湖帮助进行需求预测?

有很多问题,如果我要做大,我要花多少钱?我们显然想要做的一件事是利用云计算并利用这些资源,尽可能快速和积极地进行我们的大规模预测。然后,当我们想要将这些资源释放给云提供商时,我们不需要为此付费。当我这样做的时候,我该怎么处理我的预测呢?我不想失去我从运行模型中得出的见解。这些结果在a数据帧这意味着它们最终驻留在内存中。我们所做的是,我们持久化数据并存储它。我们首选的格式是三角洲湖三角洲湖将允许我快速地与这些数据交互并以表格的形式打开它。通过持久化该数据,我现在可以选择为该数据提供一个按比例缩小的集群,以允许交互式查询。我可以用BI工具使这些模型可供存储或分销经理使用。

问:Facebook的Prophet是季节性时间序列的一个很好的解决方案。那么非季节性时间序列呢?如何确定预测的准确性?

我同意Facebook的先知适用于季节性数据。与udf你可以用华宇电脑还有其他常用的库。你也可以试试RMSE以及其他方法来找出哪种更适合你。Prophet也有自己的工具来确定准确性。

在我们的博客文章中,Bilal演示的信息被仔细地记录下来。在文章中,我们创建了第二个UDF,在这里我们计算评估指标。您可以使用任何方法来评估这一点,并在查看预测结果时将其带回考虑范围。

额外的零售/CPG和需求预测资源

免费试用Databricks
看到所有工程的博客的帖子