机器学习库(MLlib)

回到术语表

Apache Spark的机器学习库(MLlib)设计简单，可伸缩性强，易于与其他工具集成。借助Spark的可伸缩性、语言兼容性和速度，数据科学家可以专注于他们的数据问题和模型，而不是解决围绕分布式数据的复杂性(如基础设施、配置等)。MLlib构建在Spark之上，是一个可扩展的机器学习库，由常见的学习算法和实用程序组成，包括分类、回归、聚类、协同过滤、降维和底层优化原语。Spark MLLib与Spark SQL、Spark Streaming和DataFrames等其他Spark组件无缝集成，并安装在Databricks运行时中。该库可作为Spark应用程序的一部分在Java、Scala和Python中使用，因此您可以将其包含在完整的工作流中。MLlib允许对模型进行预处理、修改、训练，并对数据进行大规模预测。您甚至可以使用MLlib中训练的模型在结构化流中进行预测。Spark提供了一个复杂的机器学习API，用于执行各种机器学习任务，从分类到回归，从聚类到深度学习。

额外的资源

回到术语表