冠军
数据+人工智能

数据领导者为数据驱动创新提供动力

第22集

将数据民主化到第一线

美国特种作战司令部前CDO Thom Kenney加入了数据+人工智能播客的冠军,分享他利用数据洞察来改变现代军事的经验。我们还将探讨他和他的团队如何在混合的非机密和机密环境中工作,管理世界各地多种不同分类的数据,并使数据科学家和数据工程师团队在模糊、资源和时间限制的情况下解决棘手的挑战。最后,Thom分享了他对数据、人工智能架构和系统设计的看法,以确保解决方案面向未来。

头像
托姆肯尼
前首席数据官,美国特种作战司令部

经验丰富的CEO和CTO,多次成功退出,陆军预备役军官和战斗老兵,董事会成员和投资者。

阅读面试

克里斯·达:
所以Thom,很高兴你能来到数据+人工智能冠军。谢谢你抽出时间。

托姆肯尼:
谢谢你邀请我,克里斯。

克里斯·达:
去年7月,我们在我从米兰回来的那趟差点坠毁的致命航班上相遇。你可能还记得。

托姆肯尼:
我做的事。

克里斯·达:
我们聊了一下午你在特种作战司令部的工作。你在国防部、私营部门、经营自己的企业、为《纽约时报》工作了25年。你已经和数据打交道很长很长时间了。好奇的是,如果你回想一下你在SOCOM所做的工作,在没有泄露任何商业机密,机密信息的情况下,因为你和我都在那个领域工作过,你能想到几个真正令人兴奋的数据和人工智能项目吗?它们对你正在做的工作产生了有意义的影响?

托姆肯尼:
我可以,我在特种作战司令部的经历是我职业生涯中最好的经历之一。能和世界上最精英的专业人士一起工作不仅是一种荣誉,而且当你每天所做的工作对世界各地正在发生的事情产生切实的影响时,这是一种令人难以置信的有益经历,同时也让人感到非常谦卑。当我想起我在SOCOM度过的那段时间,我想到的两件事是我们如何在组织内部更快地推动数据和人工智能理解。

托姆肯尼:
我们组织了一些非常有趣的培训项目,一个是麻省理工学院的一个是卡耐基梅隆大学的,它们是专门为特种作战司令部的高级领导人设计的,让他们了解更多关于数据和人工智能的知识,用一点通俗的语言,用一点我们从技术角度谈论事情的方式来增强这些高级领导人的能力,我们教育了800多人,为了理解这如何应用到他们的日常生活中。

托姆肯尼:
第二个,对我们来说是一个非常有影响力的机会,我们经常在一个非机密和机密的环境中工作,数据在世界各地以多种不同的分类存在。我们希望能够授权团队,特别是数据科学家和数据工程师,使用像R和Python这样的工具来构建尽可能低的分类。放一个Jupyter Notebook,在一个未分类的环境中运行一些带有虚拟数据的Python代码,以启动并运行基线模型代码。但是当你想把它转移到一个机密环境中时,通常会有一个非常困难的障碍,你必须通过一个被称为权威的操作。当您移动整个软件包时,可能会花费一些时间,因为当您在不同的分类之间移动时,必须从安全角度评估每个包。

托姆肯尼:
我们能够交付的是一些非常令人兴奋的东西,因为我们达到了一个地步,你可以在非机密环境和机密环境中使用所有相同的R和Python包来进行数据科学,机器学习,神经网络,然后你所要做的就是将你的Python代码片段或将你的Jupyter Notebook从一个移动到另一个。您不必担心所使用的所有这些开源包的额外安全限制,因为它们已经在这两个领域进行了审查。bob下载地址这为特种作战司令部内部提供了一个巨大的机会,可以真正将能力降低到最低梯队。SOCOM的数字原住民现在正在为他们的命令开发R和Python应用程序,这些命令每天都在解决现实世界中的问题。有趣的是,低级士兵或低级军官最喜欢这种做法。

托姆肯尼:
他们是数字原住民。他们明白数据的重要性。他们对人工智能感到兴奋。他们一出娘胎就开始使用科技了。这些人正在接受我们所能提供的能力。这也是国防部第一次这样做,你可以非常非常无缝地在一个环境和另一个环境之间移动代码。我认为对我们来说非常重要的第三个方面是当我们着眼于SOCOM需要的长期观点时,真正开始建立这种关于数据的肌肉记忆是你在做人工智能工作时要做的最重要的工作。提供给机器学习算法或神经网络的数据比模型更重要,因为你可以拥有世界上最好的模型,但如果你有非常糟糕的数据,这个模型将帮助你做出非常糟糕的战略数据驱动决策。

克里斯·达:
是的。让我们再深入探讨一下,一些想法。你邀请我去年夏天,我花了一天时间和你有机会直接与克拉克将军说,高管教育的这一点,我真的被他是多么忙碌,他是多么迅速的人工智能的机会,非常开放,不同的命令可以做什么为了移动更快,真的有些功能部署到战场吗?我有反恐领域的背景在911之后从很多不同的组织获取数据,至于你所说的数据分类级别以及需要做更多的事情我们当时称之为低级别,非机密环境,当然,那里的最大挑战是,如果你把敏感的机密数据结合起来,这些数据是通过机密手段收集的,你已经获取了开源数据或非机密数据,bob下载地址你怎么把这些东西融合在一起?

克里斯·达:
就像你说的,把算法从数据的低水平转移到高水平,让它们运行得同样好,尽可能可信,在20年前真的很难。这是一个漫长的过程。听起来你们最近也取得了一些不错的进展。

托姆肯尼:
我们已经取得了一些进展,但问题还没有解决,问题没有解决的部分原因是我们有太多的数据。我们有这么多的数据库和系统,其中一些我们甚至已经不能访问了,它们有重要的数据,我们应该用它来了解它的历史背景,帮助我们了解未来的环境,知道我们可能会去哪里。一个很好的例子是,在我的世界里,民政事务,我作为民政官员部署到阿富汗,我也部署到非洲,有一件非常令人沮丧的事情从我的角度来看,我需要在外地工作的信息是有两个不同的系统在转换当我在做我的部署之一。它正在从一个叫老虎的系统转移到一个叫悉尼的系统。

托姆肯尼:
这两个系统之间没有通信它们之间没有数据共享,也没有数据从一个系统转储到另一个系统。不仅如此,用户界面是如此的不同以至于你必须进行大量的培训来解决这个问题。所以当我们回顾你所谈论的反恐问题时,我们比20年前进步了很多,但我们仍然面临的挑战之一是这些不同的系统中有太多的数据,这些系统之间不一定相互交流。所以我们在SOCOM内部与我们的供应商和内部讨论了一些非常重要的方面,使用数据来实现人工智能是一种要求。一是我们必须能够有API支持的功能,应用程序编程接口,允许两个软件共享数据,并将数据无缝地从一个系统转移到另一个系统。

托姆肯尼:
另一个是我们必须是平台不可知的,能够把一段集装箱代码从一个bob体育客户端下载地方带到另一个地方,无论是从一个云到另一个云,还是从驻军到我们实际作战的战术平台。移动这一功能的能力很重要,这与一个非常有趣的方面有关,那就是,我们花了多年的时间来弄清楚,我们如何将所有的数据带到计算空间的位置?但是如果你把它颠倒过来把计算移到数据所在的地方,这是一个非常非常有趣的问题集。

克里斯·达:
是的。我的意思是,这与Databricks的创始人和Apache Spark的创造者保持一致。Databricks的创始人创建了Apache Spark。那就是,如何进行分布式计算?如何最小化节点之间的数据转移量?你如何把算法推到数据上,得到结果集?对我来说有趣的是,我在情报界工作了20多年,在一家排名前十的银行工作过一段时间,现在在Databricks工作,和很多情报界和国防部的客户交谈过,系统是被故意隔离的。这是一种访问控制机制。这是一种数据保护机制。

克里斯·达:
现在你渴望应用更多来自这些不同系统的数据集,坦率地说,合同载体的建立是为了使这些筒仓环境的开发成为可能,有很多,我想说,逆风使它具有挑战性。你有一些商业实体,我们在工业中交谈过很多次,他们建立了孤立的系统,不是因为他们试图保持数据的分离。他们只是设计了适合目的的东西,他们使用API方法来真正实现数据交换。但他们发现,他们在这个庞大的网络系统地形中有所有这些API指示,数据交换真的很低效。所以他们开始做的是,我们如何将更多的数据从这些源系统转移到一个单一的环境中,在那里我们可以合并并开始做更多的分析?但是,我认为就你的观点而言,这就是推拉,什么时候我们需要把数据集放在一起什么时候我们需要把算法推出去?

托姆肯尼:
我认为你对众多api的挑战,不同位置的数据,以及我们如何将它们结合在一起进行分析?但我们在国防部面临的问题之一是,数据的所有权并不一定允许你访问这些数据,这个问题的一部分更多的是一个架构或技术挑战。如果你想想零信任的概念,拜登总统几个月前说过,“我想让美国政府的系统坚持零信任,基于云,对重要信息的访问全面采用多因素身份验证。”现在,有各种各样的隐含任务,一个关于如何找出如何解决问题的陆军术语。

托姆肯尼:
但当你看到数据保存的位置时,我们遇到的一个挑战是,如果我们谈论以更简单的方式将数据整合在一起,使用更少的API,我们确实有几个问题。一个问题是,如何保持数据的活跃性,直到你可以实际使用它?数据的最后一次价值是非常非常重要的。因此,如果你有一段数据,你知道在24小时内将不再对你有用,你如何创造这种能力,将数据移动到你的集中数据存储库,以便能够进行分析?这就是API非常非常有用的地方它能够确保你的数据被刷新。但另一方面,我们也采取了完全不同的身份和访问管理方法。

托姆肯尼:
我知道国防部正在研究一些非常有趣的事情,当涉及到联合身份和访问管理时,放弃了我们在访问管理中只会有一个身份的想法,并在整个部门联合。让这些访问管理系统相互通信。但零信任的另一个重要部分对数据有巨大的影响是,我们如何实现基于属性的访问控制?我们习惯于说,“我们有一个服务器,服务器上有一个数据库,你可以访问这个数据库。”然后在代码里面是它如何管理的,好吧,你是这个角色或者你是那个角色,你可以访问这个数据或者那个数据。当我们考虑构建未来的系统,以达到既可以合并数据进行高级分析,又可以同时保护数据,同时确保数据是最新的数据的地步,我们将不得不获得基于属性的控制。

托姆肯尼:
因为,如果我们不能做到这一点,我们将永远被世界上所有这些独立的小系统所负担,这些系统将不会得到很好的管理,它们将为我们带来安全风险。所以我们必须采取这两种方法。

克里斯·达:
有趣的是,我回想起我在政府工作的日子,我想到大多数人都在谈论3v,即数据量(volume)、速度(velocity)和数据的多样性(variety)。我们总是在真实性上加上第四个V,这是组织不经常谈论的。它与你之前所说的联系在一起,那就是一个用低质量数据训练的惊人模型的概念是不值得的。另一件事是,数据的可信度如何?然后,当你考虑基于属性的访问控制时,这个概念,是的,它曾经是你被授予对整个数据库的访问权,或者根本没有。在过去,这几乎是一个系统层面。

克里斯·达:
现在,我相信司令部和国防部都在考虑,我如何让作战人员在当时访问态势感知数据,否则他或她可能无法访问?所以这个属性可能是好的,这个人被部署了,他们在一个行动中,他们在这个地理位置,在一天的这个时间,我们需要给他们这条信息,否则他们可能无法访问如果他们坐在主办公室的桌子后面。只是为了让团队和战争的努力,战争的努力,更有效率,更有效。

托姆肯尼:
好吧,这就是机器人过程自动化必须成为等式的一部分的地方,因为你是完全正确的,在这个地点执行任务的战士需要这些信息,而且现在就需要。但是如果我们要经过14个步骤19个级别的批准程序,而且要花一周时间才能得到批准,这对今天需要它的战术前沿作战人员来说是行不通的。所以当我谈到机器人过程自动化时,我们在SOCOM内部讨论了很多,关于它可能不是最令人兴奋的事情。但当我在SOCOMM的时候,我们确实讨论了很多,我们如何改进和自动化这些应该更快的事情?

克里斯·达:
我想谈谈,你说的时间到最后值,帮助观众理解你的具体意思,以及为什么它与你所处的空间如此相关。或者,如果你可以用一个非国防部的空间来做类比,我想到的是自动驾驶汽车和所有的传感器和遥测信息,这些数据的到来将决定汽车的反应。

托姆肯尼:
我可以举两个非常简单的例子,我认为人们会很容易联想到。第一个是你的反恐背景。当你掌握了你可能要瞄准的某个人的信息时,如果那个人的最后已知位置是三天前,那么这个信息就毫无用处。三天前那个人在那个地方的时候这个信息很有用。但最后一个值可能只有一两个小时当我们必须做一个手术时,我们知道某人可能在某个地方。在民用方面,从一个非常简单的用例来考虑。作为一名飞行员,我需要知道是否有人还在跑道上。所以在机场维持时间的价值在机场运作中可能会利用智能,现在你可以用秒甚至毫秒来衡量维持时间价值的重要性。

托姆肯尼:
这是几个例子说明时间到最后值的时间可能会更长一些。甚至对于人事来说,你的任务是“持续时间”,直到你下次搬家时才会改变。但在动力操作中,也许你的窗口会更小但没有机场操作那么小。

克里斯·达:
机场运营离我们家很近。我有我的飞行员执照,去年7月我们从米兰起飞时,我想知道为什么他们没有最新的天气预报穿过米兰的风暴和冰雹。冰雹的大小打碎了飞机的挡风玻璃,取出了前锥,损坏了左引擎,我们不得不宣布紧急着陆。我们不得不倾倒燃料。这是一片混乱,我想,“为什么我们要起飞,而且肯定要穿过风暴中心,否则的话,天气是相当晴朗的?”这是两个很好的例子。

克里斯·达:
我想谈谈架构。Databricks一直在倡导湖屋的概念,它将数据湖的优点结合起来,包括半结构化、非结构化和结构化数据,这些数据都集中在一个地方,使用主要云提供商提供的低成本对象存储,以及数据仓库的概念,在数据仓库中,你开始添加数据的治理和可用性,以及数据资产的创建。跟我谈谈你觉得湖屋模式是好是坏,如果你相信的话,对于很多组织正在进行的人工智能之旅来说。

托姆肯尼:
我个人很喜欢湖屋模式,原因有几个。一个是,你之前谈到了所有不同类型的不同数据。随着未来5年、10年、20年将流动的大量数据,这些信息将来自数据集,来自物联网设备,来自JSON文件,它将无处不在,能够将计算移动到更接近数据的地方,我认为这将是绝对巨大的。湖屋最有趣的一个方面是如果你想想数据仓库、治理和数据湖,我们在工业和政府中看到的数据湖的一个贬损之处是数据湖变成了数据沼泽因为它们没有任何治理。它们没有太多重叠。

托姆肯尼:
所以所有这些海量的数据都被扔进了一个湖里,而我们却不知道,我们可以用这些数据做什么。我们如何标记它?我们如何使用元数据来理解它?数据接口是怎样的?所以湖屋的概念将这个问题提升到一个程度,你可以更好地管理进入你湖屋的数据流,然后让你的数据工程师和数据科学家更容易知道,我有什么数据?它是如何被杠杆化的?它是如何更新的?它能让组织更快地前进。

克里斯·达:
让我们换个话题。我们的时间不多了,所以我想和你们谈谈其他几个项目。我们来做一些预测。你接触大数据已经有一段时间了。我也是。你已经在组织中接触过它,它是关键任务和拯救生命。你所接触过的组织都在提高收入和降低成本。所以你已经看到了拍字节级别的两面。如果你展望未来5到10年,对于那些想要理解正在生成和收集的大量数据的组织来说,你认为主要的数据挑战是什么?

托姆肯尼:
我们在SOCOM讨论算法时讨论过的一件事是在不改变算法的情况下影响算法和算法输出的能力。我之所以这么说,是因为我们作为一个社区,作为一个数据社区,从整体上理解,你把数据推到一个系统中,这个系统由一个算法运行,可以产生输出,也许是为了战略决策,你可能会推好的数据,但相对于你拥有的其他数据,你可能会推太多的好数据。

托姆肯尼:
所以当你思考这个问题时,我们必须考虑到你也可以根据你输入的数据来改变所有这些不同算法的结果。例如,如果你考虑以特定方式加权的数据集,如果你把一大堆数据放入那个算法中,知道它在哪里加权,你就会影响那个算法。如果你想想如今机器人是如何被使用的,埃隆·马斯克(Elon Musk)关于他对Twitter的担忧的很多评论都是机器人的数量,它们正在向用户传递信息,这是相同类型的范例。所以当我想到5到10年后的挑战时,我认为其中一个挑战将是,我们将拥有如此多的数据,几乎所有的数据都是权威的,但我们可能仍然不能做出好的决定,因为数据的权重没有适当地调整到我们所拥有的数据。

托姆肯尼:
当我们考虑数据和人工智能时,这对我们来说是一个进化的步骤。现在,今天,我们担心的是,我需要真正可靠的数据,我需要相信这些数据。在未来的5到10年里,这种演变的下一步将是,好吧,但我也需要了解这些数据是如何加权的,当这些数据影响其他数据时,这些数据的重要性在哪里,以及它如何为我们的战略决策提供信息。

克里斯·达:
酷。是的,很喜欢。到目前为止,你的职业生涯很不错,担任过很多高级职位,我想和你谈谈作为数据和人工智能领域的领导者,我们能做些什么,你会给那些有抱负从事与你类似职业的人什么样的建议。一些东西是什么?我们听到有人建议,总是去做有问题的项目并且愿意参与并帮助解决一个失败的项目并且在组织中为自己赢得声誉,这是职业道德的组成部分。我们听过人们谈论他们的教育建议。当你想到在你所在的领域推荐一份职业时,你会想到什么?

托姆肯尼:
我认为对任何技术人员来说,最被低估的才能之一就是他们的沟通能力。当你想到数据和人工智能时,你可以去解决最难的问题,你可以去读所有这些书,你可以有伟大的职业道德,但在一天结束的时候,如果你不能交流,它不会帮助你在你的职业生涯中前进。我认为这很重要的原因是数据科学家,机器学习工程师,这些人都在研究这个问题的技术方面。如果他们能够很好地与产品经理沟通,与终端用户沟通,这只会极大地提高他们开发人们每天需要使用的解决方案的能力。

托姆肯尼:
20年前,在后面的房间里的编码员的隔离想法是很棒的,有很多关于它的表情包和电影,但今天,我们在未来5到10年,未来20年,将会看到的最重要的数据和人工智能人员,将会是那些优秀的个人沟通者,能够找到问题的根源,确定哪里有差距,并且能够以一种让他们接受建设性反馈的方式来交付一些东西,以改进他们每天所做的事情。

克里斯·达:
是的。我认为这是一个很好的观察。我本来想说的,是你提出来的,是后面房间的编码员。我记得我曾经做过一个程序,我是其中的一名开发人员,我们会开玩笑,把食物塞到门下,让我们独处。我们不想和任何人说话,除了挤在一起,进行混战之类的事情。但是,数据科学家、软件工程师或在技术层面上处理数据的人现在在前台工作,必须解释工作并教育业务利益相关者,而这些工作通常不太技术性。因此,能够以这样一种方式进行沟通,他们可以将一些技术术语翻译成业务利益相关者能够理解的东西,同样地,能够理解来自业务或任务方面的动机,以及他们为什么要做这些事情。

克里斯·达:
我的意思是,很多时候,我们在开发软件的时候,我们有点脱离了,好吧,当它真正被部署和使用的时候,那不是我们真正的事情。我们正在开发我们需要开发的下一组功能。所以我认为沟通很重要,理解事情的两面。好了,我们没时间了。我想感谢你,Thom,参加数据+人工智能的冠军。很高兴再次见到你,希望很快能见到你本人。

托姆肯尼:
谢谢你,克里斯。非常感谢今天的时间。