阿尔文甘伟鸿

员工数据科学家,澄清健康解决方案

    Alvin Henrick是clear Health Solutions的员工数据科学家,擅长并行数据库系统、交互式查询、分布式查询执行、查询调度、Spark机器学习以及TensorFlow和Keras深度学习。他是Apache bob下载地址Tajo和Sbt-lighter插件的开源提交者。Alvin拥有新德里NIELIT的计算机科学硕士学位。他曾在VMware、Pivotal和Humana公司任职。请访问www.alvinhenrick.com了解更多信息。

    过去的会议

    2020年峰会 基于Spark ML的模型解释和预测探索

    2020年6月25日下午05:00 PT

    黑盒模型已经不够好了。随着机器学习成为主流,用户越来越需要清楚地了解为什么模型会做出某些预测。解释线性模型很容易,但它们通常不能提供足够的准确性。非线性模型,如GLM(广义线性模型)和随机森林提供了更好的精度,但由于它们的非线性性质,很难解释。除了解释整个训练人口的模型预测,还需要解释用户选择的人口的任意子集的模型预测。此外,一旦用户看到每个特征对模型预测的贡献,他们就想要进行“假设”分析,以探索改变特征将如何影响模型预测。我们开发了一种技术:

    1. 解释非线性模型
    2. 显示人口的任意子集的非线性特征贡献
    3. 提供假设分析,以便用户可以更改特征值并查看对预测的影响

    我们已经实现了一个Spark库,因此任何使用Spark ML创建的GLM或随机森林模型都可以使用我们的库来解释。此外,我们还创建了一个node.js库,这样基于浏览器的应用程序就可以动态计算模型解释,并允许用户在网站中进行假设分析。我们目前正在使用这个库来解释500亿个关于医疗保健数据的预测。在这次演讲中,我们将介绍这种方法是如何工作的,以及任何Spark用户如何利用我们的库在Spark ML中对任何GLM或RF预测做同样的事情。

    2020年峰会 人工智能辅助的大数据建模特征选择

    2020年6月23日下午05:00 PT

    由于Spark的强大功能,进入模型的功能数量正在以指数级速度增长。每家公司正在创造的模型数量也是如此。常见的方法是将尽可能多的特性放入一个模型中。不能改善模型的特性很容易会增加模型的复杂性,降低准确性,并使用户难以理解模型,从而对模型造成伤害。然而,由于查找噪声特性并删除它们需要大量的手工工作,大多数团队要么不这样做,要么很少这样做。我们开发了一种人工智能辅助的方法来识别哪些特征提高了模型的准确性,以及提高了多少。此外,我们提供了一个排序的特征列表,并估计了包含它们所期望的精度(例如r2)改进。

    现有的一些方法可以处理自动特征选择,但几乎所有的方法都是计算成本很高的,并且无法转化为大数据应用。在这项工作中,我们介绍了一种快速的特征选择算法,该算法自动删除不太相关的输入特征,同时保留并在某些情况下提高模型的准确性。该方法首先是基于自举模型训练的自动特征相关性排名。这个排序决定了特征消除的顺序,这比随机特征消除更有效。在特征选择过程中,还有其他简化的假设,以及我们对能够在医疗大数据上进行快速并行特征选择的过程的分布式实现。