冠军
的数据+人工智能

数据领导人为数据驱动创新

17集

解决业务问题的数据

数据团队有时会过于关注功能工程和模型性能时,用例没有充分理解上下文及其业务影响。在这节课中,Sanjeeva费尔南多,高级副总裁,为联合健康集团探索方式数据和技术领袖可以保持团队专注于交付业务价值的数据工作落后和解构的用例。

头像
Sanjeeva费尔南多
高级副总裁,人工智能产品及平台,实验室为联合健康集团bob体育客户端下载
作为人工智能(AI)的高级副总裁产品和平台,为联合健康集团Sanjeeva费尔南多负责设计和开发尖端的人工智能模型和分析为企业,以及平台需要bob体育客户端下载加速这些解决方案的开发和部署。
以前,费尔南多领导OptumLabs应用数据科学中心(宾馆)。无赖团队突破在人工智能和机器学习应用于解决复杂的医疗挑战联合健康集团(UHG)开发和部署新软件产品的概念。
加入2014年为联合健康集团之前,费尔南多在诺基亚工作,他创造了他们的第一个数据科学团队。之前,费尔南多在诺基亚工作了九年各种企业角色与诺基亚的多媒体部门,诺基亚研究中心和诺基亚公司。费尔南多也是创始人之一和工程副总裁Vettro,风投支持的移动软件公司。费尔南多与Viant和埃森哲咨询开始自己的职业生涯。
费尔南多是一个毕业于三一学院获得计算机科学学士学位。他住在波士顿地区与妻子和三个男孩。在空闲时间,费尔南多享受训练他的儿子在篮球和棒球。

阅读面试

克里斯·达:
欢迎来到欧冠的数据和人工智能。我是你的主人,克里斯帮助。为什么它是重要的数据团队专注于用例和少模型?这是今天的讨论的核心。数据团队有时会过于关注功能工程和模型性能没有完全理解的用例和业务的影响。在这节课中,我加入了山治费尔南多,高级副总裁,为联合健康集团探索数据和技术领袖可以保持团队专注于交付业务价值的数据工作向后和分解。用例开始吧。所以欢迎作冠军的数据和人工智能。

山治费尔南多:
谢谢,很高兴来到这里。

克里斯·达:
是的。当我们上次交谈,我们在谈什么人生就像过去的一年,在家工作的一些挑战和有了孩子,想要确保他们保持高效和安全。你能分享一个故事关于你可能不得不拦截或插入自己的模式?

山治费尔南多:
是的。不,我想我们都经历了很多变化,我只是提醒,当我们说话的时候,几年前,也许五、六年前,当我们真的不在家工作。我们被困在家里,因为暴风雪,我妻子和我都工作,我们试图从电话叫许多人一样可能在去年试图找出如何让孩子们忙。所以我们最后就说,“嗨,只是继续打扫雪,抓住一块,我们会包你”。我和我的妻子终于得到了,我们不得不在一些电话会议,我们让他们松了。

山治费尔南多:
不幸的是他们的男孩和我的男孩,这就是问题。但他们不知何故发生了他们将雪橇邻居家的车库,有这么多雪他们能够让自己到顶部的车库,拍自己。几小时后,事情似乎进展顺利,我们正在做我们的电话,我们迎头赶上工作。然后我们把这个紧急的敲门,我的儿子出现了到处都是血,他撕毁他的膝盖。和我可怜的妻子正试图找出如何把自己的演讲。就像,我不能了,因为我儿子只雪橇自己车库。这是很有趣的。和有趣的现在,我们都很担心他,但两针后,我们都能一笑而过。

克里斯·达:
是的。这让我想起了我小时候在两人雪橇滑雪一次和我的一个朋友,他在后座的雪橇,他控制操舵,我们这个巨大的山。我感觉我们失去控制,我想,大叫,“我们会崩溃”。他说,“不,我们好”。在最后一分钟,我就跳下雪橇和他撞到一棵树上,摔断了腿。所以他从未…卡尔文·威尔逊,如果你在某处,你听到这,原谅我让你休息你的腿不是我的。

克里斯·达:
但这可能是一个很好的例子也许谈论数据科学和谈论团队和你的角色作为一个领导者在确保他们已经得到了所有的信息可以正确地构建模型和理解可能完整的业务用例。那么谈谈你如何能够发挥你的领导能力从指导的角度来看,只是帮助团队理解的用例设计的完整宽度时建模。

山治费尔南多:
是的。有很多进入它,我们尽力了,我们有一些了不起的人在联合健康集团工作。准备好训练有素,他们真的是理解如何应用这些专家真的神奇的方法来理解数据,提取会议和洞察力。但我总教练的人是真正理解业务问题的结束,真正的工作回来,引用),客户或用户。通常在机器学习和人工智能,很受到信任的人来自更多学术设置或通常需要大量的学术培训能够成功的在这个空间。通常很容易爱上我们的数据来推断和驱动推理,但你必须真正理解你试图解决的问题是什么。是的,如果我有解决问题的所有数据像疾病预测,我们还不做,在现实世界中实际上是如何工作的?

山治费尔南多:
如何去医生吗?如何得到一个护士吗?甚至到达病人如何理解他们的疾病可能会带他们吗?所以,是的,我可以训练模型发生的一切一个人,但是他们的决策正确,对他们的帮助可能没有做出决定的所有数据。你可能会在前端的问题或者你可以尝试的东西。所以,是的,你的标准,你的表现,你的接收机运营商曲线或精密召回,看起来伟大的基于你训练的那一天,但是你考虑哪些数据可用在那个时间点上所需的推断是什么时候?

山治费尔南多:
所以我们花了很多时间谈论很多时间,理解。老实说,来自医疗保健,有时很难找出谁是客户因为你和我的病人应该总是把第一,但也有供应商需要能够为我们服务很好。有纳税人谁正在努力确保我们得到高质量的护理,但在负担得起的价格。所以有时候可能有点难导航和理解如何优化所有这些重要的需求。

克里斯·达:
是的。所以在我看来你已经确定,只看数据本身和数据的当选,不是全貌。你有任何突破性的时刻采取,…在哪里?我们通常指的是一个360度视图的一个客户,你说,这是可互换的,在医疗环境中,你有耐心,你有供应商。所以有更多的当事人。你有一些突破性的时刻,你说,你知道吗,我们只看数据的一个子集,使用这些数据,我们可能会看到好的模型性能我们失踪的更大的图片吗?

山治费尔南多:
是的。我们曾与年医疗安全消除识别信息数据,还有重要的控制和治理,是由HIPAA允许我们创建这些消除识别信息数据资产。这是我们学习的好地方和测试新方法。但有时我们爱上这些方法和我们说,”好吧,看看这是表演,我们应该写一篇论文,这看起来真的很棒”。但过程中,我们也问自己,好吧,这是伟大的,现在我们怎么得到这个的人可以用它每天?

山治费尔南多:
我们突然意识到我们的模型不工作因为改变的数据,数据的可用性已经改变,信息密度改变,特异性改变。所以这只是一个好的叫醒说,嘿,看,理论与实践几乎可能是它的核心。很理解业务问题你解决在这种情况下,人是如此的重要。所以我们从现在我们真的试图从业务上下文。喜欢,让我们先从这个问题开始而不是一种理论。

克里斯·达:
和有一个过程,你和你的团队经过分解?所以你有这个宏用例中,如果你愿意,你想一定要理解关键接触点沿时间轴的一个病人出现某种症状治疗,医生和他或她的评估决定。然后你编织的额外测试之类的,然后现在你创建一个治疗计划。你经过一个练习沿着这种连续打破东西?

山治费尔南多:
绝对,我们尝试使用一些结构来帮助我们得到这些问题。过去,我们利用衍生品之类的东西叫做商业模式画布,这与数据无关,与机器学习无关,但它开始帮助我们磨练在拼图的什么,我们想要解决什么问题?可以很大的问题在我们这个行业,我相信其他人。所以分解和理解和拥有一个完整的问题陈述是对我们非常重要。我们真的很喜欢油画,因为它迫使我们要问一个问题,我们解决的业务问题是什么?但也有其他的合同,就像理解我们想去的地方也很重要。的第一个步骤是测试和验证解决方案的某些方面。

山治费尔南多:
但你也想要那北极星,我们要去哪里?什么样的业务转型,我们想实现吗?今天我们使用新闻稿、FAQ文档来帮助表达类似的东西。所有这些结构帮助我们得到正确的问题。如果我们做得很好然后用数据和方法试图解决这个机器学习变得容易得多,因为我们知道我们正在做正确的问题域,和理解数据和处理的限制和约束,必须考虑到。

克里斯·达:
我们听到很多行业当我们讨论用例定义和公司真正想要沿着这个数据和AI成熟度曲线更规范的分析和尝试,驱动行为,该组织希望,还有,我们讨论数据邻接。所以如果你用例和它有一组数据,然后你试图找到其他用例利用的数据集,因为您已经完成数据争吵,你发现从源系统数据的由来,你已经完成了数据管理的步骤。你试图让它更消耗品,可以利用它来做模型的训练。你们接受这种方法找到的伴侣用例和是进程的一部分,准备这些东西了?

山治费尔南多:
是的,当然。有时它可能不是即插即用,如果是即插即用,太好了,我们将赢得。但我们看到很多受益于常见的表示语言和信息可能被训练为一个用例,我们可以转移到另一个用例。是非常重要的,不仅要运用我们的投资资产的代表数据和语言在一个用例,应用通用用例,我们开始重用数据管道和训练模式。,突然之间,我们开始观察到的是,这两个解决方案得到更好一点,因为他们都开始表现得更好,因为我们展示更多的信息模型。或材料发生变化,业务流程是如何工作的,都是受益于这整个管道的共性。

克里斯·达:
所以作的一件事是,我们听到大的科学数据,80/20法则,80%的数据科学社区,他们的时间都花在做数据角力,20%做算法的发展。是你看到在你的组织吗?这是对你和你的团队的挑战吗?如果是这样,多少数据架构平台,您的团队是否建立协助,协助?bob体育客户端下载

山治费尔南多:
是的,这是个很好的问题。我们一直在这样的机器学习旅行了几年。但当我们开始的时候,这是挑战,部分原因是生成数据的系统,我们需要学习,从来没有为这样的用例设计。这些遗留系统执行很好,优化了他们所做的今天,像过程索赔之类的东西,但是他们没有考虑支持机器学习推理。所以这是一个挑战,我知道你们与很多公司合作。我们一直都在努力学习和听别人如何试图嫁给这些不同的系统和平衡目标,因为它很难。它会很高兴听到别人做什么。

克里斯·达:
是的。我们与很多公司从很多不同的垂直,我认为有几个主题。第一,坐落在这些源系统的数据,提取数据的最佳方式是什么,让它更有用的跨系统、跨业务单元分析,对吧?所以一些公司应用系统的分析记录,但常常是不够的,他们可以做他们想要的风格的分析,所以他们需要把数据。有很大的运动,我相信你已经听说了,在数据网格,也就是50%的原则和政策在创建一个生产者消费者模型,确保生产者负责数据和这些数据的质量。

克里斯·达:
然后源系统的学位可以提供数据产品,那太好了。但是今天的许多系统设计并不是真正能够做到这一点。所以组织是把数据转换成类似,说我们的lakehouse架构为例,你可以巩固数据持有来自很多不同的系统。然后你有一个地方去提供对数据的访问,和争吵块现在做数据科学社区能集中精力做工程的全部特征。

山治费尔南多:
是的。这是有意义的。我想我知道我们领导。争吵与四年的经验数据,我们认识到,不是自动执行这些步骤,像你描述它的方式,是如此的重要,以减少时间和精力,但也确保一致性和血统和治理。然后接下来我们会面对,和其他人,一旦你有了伟大的推理,你需要或者你能推回到源系统有效且高效地?,几乎是很容易的,但后来源系统如何变化?我们如何思考的工作步骤,系统可能重新考虑整个过程吗?我认为这就是未来几年内会对我们所有的人。

克里斯·达:
是的。这是令人兴奋的。好吧。所以我们可能关闭的用例的技术讨论。我很好奇当我们说上次你讲过,分类模型。曲线下的面积测量的分类模型的表现如何的一只猫或一只狗,或者一只猫而不是一只猫,我猜可能是一个更好的例子。在医疗保健,你可能试图分类患者有一个条件是需要治疗或没有条件。

克里斯·达:
我被你说的一件事,理想情况下你想要尽可能接近100%的适合,曲线下。所以,但你指出,即使你99%,你需要思考模型及其性能,因为它可能无法充分考虑到时间轴和所有数据。所以你今天早些时候提到过。你能给我们一些例子或强调为什么数据科学团队需要小心变得过于自信,他们可能有一个性能良好的模型被最后所有都是模型吗?

山治费尔南多:
是的。我认为我们学习的是,有一个持续的动态的效用和使用模式的今天,无论是确定性规则或机器学习,更多的概率,或者其他方法。我们开始这个想法内外循环的指标。一个内部循环指标可能是AUC,像这种推理执行情况如何?但一个外循环指标可能反映了总业务影响。我将使用一个非常简单的例子,但我可能能够预测某人有疾病的风险。我可能使用疾病预测说,“嘿,这个人应该得到这种类型的关怀”。但是如果我看外层循环指标,或如果我忽略了外环规说,“他们实际上得到了关怀”?。或“关怀”又是什麽的?

山治费尔南多:
然后你进入这么多复杂的医疗保健。他们获得保健吗?他们有保健的运输吗?很多外层循环指标需要的部分数据和科学团队,不仅他们的内循环指标可能反映曲线下的面积。最终我们得到的影响。所以理解这两个集合之间的关系是特定的用例,将会是一个基本的例子,但是我们自己的问题。我们不能只专注于我们的小世界,说“看,我的AUC是伟大的”。我们将针吗?我们影响别人的健康吗?我们实际上改变的结果吗? We all own that problem. And that’s sort of how we are talking about it and how I talk about it to our teams.

克里斯·达:
是的。这听起来像,将回到你早些时候说的,是真的,用例的定义,理解连续分解。我猜你引进来自组织内部的其他利益相关者,所以你有完整的,完整的病人护理的会是什么样子?如何预测结果要准确的考虑,就像你说的,也许运输和获得实际的测试,他们将需要的确定他们有特定的疾病,或者如果他们有正确的治疗方案吗?

山治费尔南多:
这是正确的。它会很高兴听到你们有经验。讨论如何让影响与机器学习与数据科学家不启动和停止。我们需要每个人都成为谈话的一部分。非技术涉众,我爱在这里对我们是如此重要,实现商业成功。但是我们真的与密度的概念,它会有趣的听别人怎么可能面临到,如何理解一个AUC是什么,如果你不是一个数据科学家。

克里斯·达:
是的。我认为对我们来说,我们的目标和公司的愿景是提供一个数据平台,所有不同的角色可以以一种有意义的方式与数据,并利用他们的技能,而不需要采取非技术人员和软件工程师。bob体育客户端下载所以我们做事情在低代码,没有代码风格模型开发和数据的科学。我们有内置的BI引擎平台。bob体育客户端下载我们只能够打破世界纪录处理TPC-DS风格,企业数据仓库量度。

克里斯·达:
所以我们添加一些特性,带来更多的角色在数据科学机器和数据工程功能之外,更多的业务分析师和数据分析师。帮助他或她理解,所有的数据通过这个环境和所有正在运行的工作负载数据,业务结果是什么,你可以想象,看看通过平台?bob体育客户端下载所以我们认为它是一项团队运动,我们的目标是尝试和端到端平台。bob体育客户端下载

山治费尔南多:
是的,这是有意义的,因为我认为你打它的头。现在是一个团队运动,如果你是一个数据科学家思考您的模型优化,使用公制AUC,那是你的责任,那是你在团队中的角色的一部分。但你是团队的一部分,我们都要努力让其他业务的结果。

克里斯·达:
听起来不错。好吧。山,我想结束,我们总是问领导这个问题,你会给什么建议人们渴望在你的角色?和你有一个团队在做真正有意义的工作。你会给人什么样的建议,试图创建一个数据科学与数据和首席数据官生涯风格追求?

山治费尔南多:
是的。我认为方法和想法通过行业不断出现。我现在一直很感兴趣的系统思考。承认,在任何行业的复杂性结婚,不是简单的数字和软件,但市场在做什么?如何互动?医疗保健是一个好地方去思考系统思考,因为你有这么多的不同,不是竞争,但病人之间的关系,供应商,付款人,联邦政府、州政府、生命科学。所以我一直辅导,当人们问我,他们并不总是问我,但如果他们这样做了,我鼓励我们的数据科学家。我鼓励那些想要在机器学习和人工智能也进一步考虑到业务系统,业务的复杂性。并采取系统思考的心态,让你了解了机器学习的一切但然后理解试图完成什么,所以你可以应用的方式,没有人真正想做的事。我认为这就是我们如何获得真正的变换的新方法。