Macarious Abadeer

高级软件工程师,IQVIA

    我是一名高级软件开发人员7年以上软件开发经验,4年团队领导职位。我现在努力在渥太华卡尔顿大学计算机科学硕士学位,加拿大。我一直与火花工作4年预测建模和数据隐私的转换。我最近写了一篇研究论文的一部分,我的硕士学位在使用火花de-identifying数据集使用自顶向下专业化技术。我工作的公司包括D + H, IBM和目前IQVIA。

    过去的会议

    2020年峰会 自顶向下专业化使用Apache火花

    2020年6月23日凌晨5点PT

    大量的数据以及法规保护人们的隐私创建了一个需要保护的私人和个人信息在一个可伸缩的和有效的方法。个人资料包括敏感和私人信息,比如健康记录、银行交易和频繁的位置。数据匿名化的挑战之一是当数据匿名增加其实用性分析或研究减少。本文提供了一个实现自上而下的专业化数据匿名化算法并行使用Apache火花旨在平衡数据工具和数据隐私。绩效评估是针对大型数据集的各种不同的集群环境中2000万行。讨论分析了不同的加速效果通过使用不同的数据大小。还讨论了变化等算法来提高性能确定分区的大小,确定应该运行在司机什么和应该运行在执行程序以及扩大算法的实验。Web页面的主题提出了包括幻灯片,以及研究论文我写的代码:micophilip.github.io comp5704 /