主页数据+人工智能峰会2023 Logo
2023年6月26日至29日
旧金山+虚拟
参加活

AT&T数据科学团队如何用两种不同的方法,使用Photon和RAPIDS加速器,解决了一个无法逾越的大数据挑战

对需求

类型

  • 会话

格式

  • 混合动力

跟踪

  • 行业和业务用例

行业

  • 媒体及娱乐

困难

  • 中间

房间

  • Moscone South |上层夹层| 159

持续时间

  • 35分钟

概述

由于数据集的规模和数据工程的复杂性,数据驱动的个性化对AT&T的数据科学团队来说是一个不可逾越的挑战。更多情况下,这些数据准备任务不仅需要几个小时或几天才能完成,而且其中一些任务无法完成,影响了工作效率。在本次会议中,AT&T数据科学团队将讨论如何利用RAPIDS Accelerator for Apache Spark和Photon runtime on Databricks来处理这些超大数据集,从而改进内容推荐、分类等,同时降低基础设施成本。团队将讨论不同Azure Databricks运行时的实验设计,使用NVIDIA T4 GPU实例,然后使用Databricks的Photon运行时。该团队将比较常规Databricks运行时Apache Spark环境的加速和成本。测试数据集的大小从2TB到50TB不等,包括1天到31天的数据。演讲将展示RAPIDS加速器Apache Spark和Databricks Photon运行时的结果。

AT&T数据科学团队正致力于加快移动用户浏览数据集(MSP)的ETL以下用例:
用例1:预测体育比赛收视率
用例2:电视类型和MSP类别之间的相关性
用例3:未成年人vs成年人
用例4:使用MSP变量的人口统计模型增强
用例5:广告BRD(受众构建者)

我们将展示Apache Spark和Photon的RAPIDS加速器都可以将整个工作加速至少3.3倍,并减少至少1/2的总成本。

会议演讲者

Hao Zhu的头像

郝朱

高级经理

英伟达

克里斯·沃的头像

克里斯签证官

主要技术人员

美国电话电报公司(AT&T)

查看数据+人工智能峰会的精华

按需观看