AT&T数据科学团队如何用两种不同的方法，使用Photon和RAPIDS加速器，解决了一个无法逾越的大数据挑战

对需求

类型

会话

格式

混合动力

跟踪

行业和业务用例

行业

媒体及娱乐

困难

中间

房间

Moscone South |上层夹层| 159

持续时间

35分钟

概述

由于数据集的规模和数据工程的复杂性，数据驱动的个性化对AT&T的数据科学团队来说是一个不可逾越的挑战。更多情况下，这些数据准备任务不仅需要几个小时或几天才能完成，而且其中一些任务无法完成，影响了工作效率。在本次会议中，AT&T数据科学团队将讨论如何利用RAPIDS Accelerator for Apache Spark和Photon runtime on Databricks来处理这些超大数据集，从而改进内容推荐、分类等，同时降低基础设施成本。团队将讨论不同Azure Databricks运行时的实验设计，使用NVIDIA T4 GPU实例，然后使用Databricks的Photon运行时。该团队将比较常规Databricks运行时Apache Spark环境的加速和成本。测试数据集的大小从2TB到50TB不等，包括1天到31天的数据。演讲将展示RAPIDS加速器Apache Spark和Databricks Photon运行时的结果。

AT&T数据科学团队正致力于加快移动用户浏览数据集(MSP)的ETL以下用例:
用例1:预测体育比赛收视率
用例2:电视类型和MSP类别之间的相关性
用例3:未成年人vs成年人
用例4:使用MSP变量的人口统计模型增强
用例5:广告BRD(受众构建者)

我们将展示Apache Spark和Photon的RAPIDS加速器都可以将整个工作加速至少3.3倍，并减少至少1/2的总成本。

会议演讲者

郝朱

高级经理

英伟达

克里斯签证官

主要技术人员

美国电话电报公司(AT&T)

查看数据+人工智能峰会的精华

按需观看