Hongchan卢武铉

团队领袖,SK电讯

    团队领导和创造者FlashBase(分布式内存数据存储为Apache火花,优化了DRAM / ssd)在sk电讯研发中心博士和软件工程师在数据工程对大数据和机器学习系统。顶级会议和期刊上发表论文包括VLDB, IEEE TKDE和信息系统。

    过去的会议

    这个演讲提出了如何加速深度学习处理预处理推理和培训在SK电讯Apache火花。在SK电讯,我们有一半韩国人口作为我们的客户。支持他们,我们有400000个基站,这与地理标记生成日志。这些日志,我们可以分析网络质量一定发射塔和该地区的人口估计的实时计算发射塔连接设备的数量。为了预测细胞网络质量和人口在一定区域,我们开发了一个基于深度学习的预测模型,这需要处理近200万日志每秒钟产生预测的结果为每个发射塔和地区。有效处理这种巨大的计算,我们专注于优化深度学习的数据管道。

    首先,我们试图优化深度学习预处理通过使用一个名为FlashBase的新内存数据存储为Apache火花。预处理是通过阅读从FlashBase摄入数据处理和主要操作引发的抽样转换操作,而一些聚合操作下推到FlashBase这些操作是使用向量处理加速了与英特尔MKL avx - 512。

    其次,预处理结果引发的抽样格式直接交付给一个开源分析和人工智能平台称为分析动物园没有任何数据转换。bob下载地址bob体育客户端下载最后,分析动物园的抽样作为输入并执行深度学习推理和培训操作使用TensorFlow模型并行执行人(火花)。这些操作是使用英特尔MKL处理和avx - 512矢量化操作。通过这样做,我们可以创建数量级速度数据管道深度学习基于火花和英特尔Cascade-lake cpu比纯熊猫和Tensorflow遗留建筑。

    在这次演讲中,我们将介绍如何分析、预测和可视化网络质量数据,作为一个火花AI用例在电信公司。SK电讯是韩国最大的无线电信供应商300000个细胞和2700万用户。这300000个细胞生成数据每10秒,结核病的总大小是60,每天1200亿条记录。

    为了解决之前的问题基于HDFS的火花,我们已经开发出一种新的数据存储组成的复述和RocksDB SparkSQL允许我们分配和存储这些数据实时分析它,我们不满意能够实时分析网络质量,我们试图预测在不久的将来,网络质量快速检测和恢复网络设备故障,通过设计网络信号pattern-aware款模型和一个新的内存数据管道tensorflow火花。

    此外,通过集成Apache李维和MapboxGL SparkSQL和我们的新商店,我们已经建立了一个地理空间可视化系统显示当前人口和信号强度的实时地图上的300000个细胞。

    主题
    ——我们的架构如何利用复述& RocksDB为了巨大的数据存储在一个有效的方法。
    复述——火花数据源的架构:过滤掉无关的复述,钥匙使用过滤叠加。
    ——我们减少内存的使用引发司机并防止其OutOfMemoryError。
    更好的预测模型比RNN网络质量预测。
    ——我们训练的网络质量预测模型300000个细胞具有不同的信号模式。
    ——我们在地理空间数据可视化:定制的逻辑空间查询计划聚合和叠加
    ——我们优化空间查询:使用SIMD聚合叠加和矢量化聚合