Omkar Joshi

高级软件工程师,

    Omkar Joshi Uber Hadoop的平台上是一个高级软件工程师团队,在那里他的架构马尔马拉。bob体育客户端下载Omkar解决大规模分布式系统问题有浓厚的兴趣。以前,他在Hedvig对象存储和NFS的解决方案,是一个初始对Hadoop的纱线调度器贡献。

    过去的会议

    2020年峰会 如何进行调整Apache火花在大型集群的应用程序

    2020年6月24日凌晨5点PT

    Omkar Joshi提供概述在超级性能的挑战是如何解决在推出其新建旗舰摄取系统,马尔马拉(开源)摄入来自不同数据源的数据就像卡夫卡,MySQL,卡桑德拉,Hadoop。这个系统是在生产和推出已经运行了一年多了,有更多的摄取系统机载之上。Omkar和团队大量使用jvm-profiler在他们的分析给他们宝贵的见解。这个新系统是使用火花框架构建数据摄入。这是为了摄取数十亿卡夫卡消息/每30分钟主题从成千上万的主题。的数据量由数百TBs订单的管道。在这个规模,每个字节和毫秒保存。Omkar细节如何解决这样的问题和见解的优化已经完成生产。

    一些关键的亮点是:

    • 如何理解你的瓶颈在火花应用程序中,缓存来缓存你火花DAG避免重读你的输入数据
    • 如何有效地使用蓄电池来避免不必要的火花的行为
    • 如何检查你的堆和非堆内存使用量在数以百计的执行者
    • 如何改变你的数据保存的布局长期储存成本
    • 如何有效地使用序列化器和压缩来节省交通网络和磁盘吗
    • 如何减少应用程序的摊余成本通过多路复用的工作。

    他们使用不同的技术来减少内存占用,正在运行的应用程序运行时,磁盘使用情况。在储蓄方面,他们能够显著(- 40% ~ 10%)减少内存占用,运行时和磁盘使用情况。