研究

Yggdrasil:一种优化的大规模深度决策树训练系统

作者:Firas Abuzaid, Joseph Bradley, Feynman Liang, Andrew Feng, Lee Yang, Matei Zaharia, Ameet Talwalkar

下载论文

摘要

由于需要对越来越大的数据集进行建模,深度分布式决策树和树集合变得越来越重要。然而,PLANET,在XGBOOST和Spark MLLIB等系统中实现的标准分布式树学习算法,随着数据维数和树深度的增长,伸缩性很差。我们提出了一种新的分布式树学习方法YGGDRASIL,其性能比现有方法高出24倍。与PLANET不同,YGGDRASIL基于数据的垂直分区(即按特征分区),以及一组优化的数据结构,以降低训练的CPU和通信成本。YGGDRASIL(1)直接在压缩数据上训练可压缩特征和标签;(2)引入有效的数据结构,用于对未压缩数据进行训练;(3)通过使用稀疏位向量最小化节点之间的通信。此外,PLANET通过特征分箱来近似分裂点,而YGGDRASIL不需要分箱,我们分析地描述了这种近似的影响。我们将YGGDRASIL与MNIST 8M数据集和Yahoo的高维数据集进行评估;对于两者,YGGDRASIL的速度都快了一个数量级。

相关内容

作者:Andrew Chen, Andy Chow, Aaron Davidson, Arjun DCunha, Ali Ghodsi, Sue Ann Hong, Andy Konwinski, Clemens Mewald, Siddharth Murching, Tomas Nykodym, Paul Ogilvie, Mani Parkhe, Avesh Singh, Fen Xie, Matei Zaharia, Richard Zang, Juntai郑俊泰,Corey Zumar, Databricks, Inc.

作者:Matei Zaharia, Andrew Chen, Aaron Davidson, Ali Ghodsi, Sue Ann Hong, Andy Konwinski, Siddharth Murching, Tomas Nykodym, Paul Ogilvie, Mani Parkhe, Fen Xie, Corey Zumar, Databricks Inc.

作者:Philipp Moritz, Robert Nishihara, Stephanie Wang, Alexey Tumanov, Richard Liaw, Eric Liang, Melih Elibol, Yang Zongheng, William Paul, Michael I. Jordan和Ion Stoica, UC Berkeley

作者:Roy Fox, Richard Shin, Sanjay Krishnan, Ken Goldberg, Dawn Song, Ion Stoica

作者:Cody Coleman, Deepak Narayanan, Daniel Kang,赵田,张健,Luigi Nardi, Peter Bailis, Kunle Olukotun, Chris Ré, Matei Zaharia

作者:Daniel Crankshaw, Wang Xin, Giulio Zhou, Michael J. Franklin, Joseph E. Gonzalez, Ion Stoica

作者:Reza Bosagh Zadeh,向瑞孟,Alexander Ulanov, Burak Yavuz, Li Pu, Shivaram Venkataraman, Evan Sparks, Aaron staples, Matei Zaharia

作者:祥瑞孟,约瑟夫·布拉德利,Burak Yavuz, Evan Sparks, Shivaram Venkataraman, Davies Liu, Jeremy Freeman, DB Tsai, Manish Amde, Sean Owen, Doris Xin, Reynold Xin, Michael J. Franklin, Reza Zadeh, Matei Zaharia, Ameet Talwalkar

作者:Eric Liang, Richard Liaw, Philipp Moritz, Robert Nishihara, Roy Fox, Ken Goldberg, Joseph E. Gonzalez, Michael I. Jordan, Ion Stoica