Dooyoung黄

SK电信软件工程师

    毕业于首尔国立大学学士学位,在LG电子担任高级工程师8年,是Android框架的贡献者。现在是SK电信的软件工程师,他的工作主要是优化火花查询和构建网络分析系统的ETL基础设施。

    过去的会议

    在这次演讲中,我们将介绍如何分析、预测和可视化网络质量数据,作为一家电信公司的spark AI用例。SK电信是韩国最大的无线通信公司,拥有30万部手机和2700万用户。这30万个细胞每10秒产生一次数据,总大小为60TB,每天1200亿条记录。

    为了解决之前基于HDFS的Spark的问题,我们为SparkSQL开发了一个新的数据存储,由Redis和RocksDB组成,允许我们实时分发和存储这些数据,并立即进行分析。我们不满足于能够实时分析网络质量,我们尝试预测不久的将来的网络质量,以便快速检测和恢复网络设备故障。通过设计网络信号模式感知DNN模型和spark到tensorflow的新的内存数据管道。

    此外,通过将Apache Livy和MapboxGL集成到SparkSQL和我们的新商店中,我们已经构建了一个地理空间可视化系统,可以在地图上实时显示当前300,000个细胞的人口和信号强度。

    主题
    -我们如何利用Redis和RocksDB以有效的方式存储大量的数据。
    - Spark Data Source for Redis的架构:使用过滤器下推过滤掉不相关的Redis键。
    -如何减少Spark驱动的内存使用,防止其OutOfMemoryError。
    -对网络质量预测的预测模型优于RNN。
    -我们如何训练300,000个细胞的网络质量预测模型,每个细胞都有不同的信号模式。
    -我们如何在地理空间数据中可视化:为空间查询聚合和下推定制逻辑计划
    -我们如何优化空间查询:使用SIMD的聚合下推和向量化聚合