冠军
数据+人工智能

数据领导者为数据驱动创新提供动力

21集

数据融合的力量

吴燕燕加入数据+人工智能冠军播客,深入探讨拥有大量多样化、干净和高质量的数据对推动新见解的重要性。她还讨论了现代云数据架构(如Lakehouse)如何比以往任何时候都更容易组合数据集,从结构化到非结构化,以近乎实时的方式执行算法。我们还将探讨她和她的数据团队正在做的工作是如何帮助石油和天然气公司更有效地运行,并产生更多的能源,以帮助填补当前全球事件带来的空白。如果这还不够,她还将分享加拿大鹅在飞机安全方面发挥的作用。

头像
Yanyan吴
Wood Mackenzie, Verisk公司的数据和数据分析副总裁
Wood Mackenzie数据与数据分析副总裁吴燕燕(yanan Wu)深入研究了拥有大量多样化、干净和高质量数据的重要性,以推动新的见解。她还讨论了现代云数据架构(如Lakehouse)如何比以往任何时候都更容易组合数据集,从结构化到非结构化,以近乎实时的方式执行算法。我们还将探讨她和她的数据团队正在做的工作是如何帮助石油和天然气公司更有效地运行,并产生更多的能源,以帮助填补当前全球事件带来的空白。如果这还不够,她还将分享加拿大鹅在飞机安全方面发挥的作用。

阅读面试

克里斯·达:
我们回来了我们的下一期数据和人工智能的冠军。我是主持人,克里斯·达戈斯蒂诺,数据库的全球领域首席技术官。今天我请来了Verisk旗下Wood Mackenzie的数据和数据分析副总裁吴燕燕。燕燕和我不仅会讨论加拿大鹅在保证你在35000英尺高空飞行安全方面所扮演的角色。

克里斯·达:
但更重要的是,我们将深入研究拥有大量多样化、干净和高质量数据的重要性,以推动新的见解。我们将介绍像Lake House这样的现代云数据架构如何比以往任何时候都更容易将结构化数据集与非结构化数据集结合起来,以近乎实时地执行算法。我们还将探讨她和她的数据团队正在做的工作是如何帮助石油和天然气公司更有效地运行,并产生更多的能源,以帮助填补当前全球事件带来的空白。

克里斯·达:
让我们开始吧。燕燕,今天很高兴你能来。感谢您成为数据和人工智能冠军的一员。

Yanyan吴
谢谢你邀请我。很高兴来到这里。

克里斯·达:
让我们开始吧。你知道,你在能源数据方面工作了很长时间,你还获得了计算机辅助设计的博士学位。你能告诉我们是什么让你进入数据分析、人工智能领域,以及是什么启发了你的博士研究吗?

吴Yanyan:
是的,我认为答案可能是这个观点,因为它不是计划好的。我跟着我的热情走。所以在几年前,大概是2014 - 2015年底的时候,数据很热,但不像今天这么热。学习数据非常有趣,如何将数据可视化,如何分析数据,如何处理大数据。

吴Yanyan:
我就是这样进入的。然后我的职业生涯随着我的热情而转变。就像你说的,我曾经做过计算机辅助设计,机械工程,产品经理,然后最终指导了我。所以随着学习的积累,最终会转变为数据和人工智能奖。

克里斯·达:
太棒了。是的。所以我学的是电气工程,作为课程的一部分,我们必须做一些机械工程风格的工作,做一些CAD类型的能力。我一直很着迷于那些你可以为其建模并创建3D表现的系统类型。所以我们你知道,当我们第一次认识对方时,你们谈到了设计飞机引擎。

克里斯·达:
我们稍后再讲。但是他们是如何从飞机引擎和所有数据中获得经验的?比如,这是否影响了你对更多数据分析的热情,并推动你在职业生涯中朝着这个方向发展?

吴Yanyan:
是的,这是,我得说,我的职业就是数据。只是表达自己的方式不同而已。Chris我以前是在三维几何领域,现在是在制造业制造商应用设计奖。现在转到能源数据,这是不同格式的数据。这就像一个结构化的武器,但不是他们的很多倍,Cirrus数据现在是3D的。

吴Yanyan:
但请允许我的职业生涯,如果你看看我所做的只是处理不同格式的数据,它们在变化,但哲学是一样的。实际上,克里斯,我喜欢你的双E专业,我知道如果你让我再选一次,我可能不会选因为他们在你的专业你谈论如何在噪声去除中处理噪声,信号处理频域。

吴Yanyan:
我认为在融合中,我们应该更多地研究如何将Double E知识专业知识与数据和人工智能结合起来,我想在这方面做更多的工作,所以也许我可以在未来的道路上借用你的专业知识。

克里斯·达:
我的专业知识有点过时了,但是,你知道,我早期的职业生涯是做半导体设计的,做的是低级别的,低级别的物理类的东西。当然,我也学习了计算机科学。所以我的职业生涯发生了转变,你知道,就像你的一样,从有形的现实世界中转移了很多,建立一些你可以看到和触摸到的东西,你知道,在这些机器上运行的分布式计算软件,并产生结果。

克里斯·达:
但是,你知道,这和,你知道,建造有形的东西是不一样的,而有形的东西总是让我着迷。所以,看看石油和天然气以及你今天在做的事情,你知道,当我们第一次见面并相互了解时,我们谈到了这个想法,你知道,如果你想想2022年世界上发生了什么,朝着减少碳足迹的方向发展,那么你会发现,这个挑战会变得更糟,如果你愿意的话,因为俄罗斯和乌克兰的战争,你知道,俄罗斯关闭了通往不同国家的管道,这些国家不支持俄罗斯的做法。

克里斯·达:
所以这些能源公司确实面临着一个很大的挑战一方面,他们可能需要增加或补充能源,因为俄罗斯的可用能源越来越少。因此,他们必须以更有效的方式提供更传统的能源。与此同时,他们必须考虑如何过渡到更清洁的能源,也许是完全替代的燃料。

克里斯·达:
所以,你知道,收集他们当前业务运营的数据并为投资转型寻找机会是你工作的重要组成部分,对吧?

吴Yanyan:
克里斯你说得对。你说得对。这就是为什么,你知道,我们每天都有更多的数据去工作。我们的使命是因为我们的目标是要有一个可持续的世界或者说在能源需求和供应方面。这不是一夜之间就能实现的。当然,我们也想发展绿色能源,可再生能源。

吴Yanyan:
我认为这是每个人的目标。然而,这不会马上发生。所以我们仍然要与传统能源合作,那就是天然气,特别是正如你在一开始强调的,通过乌克兰和俄罗斯的冲突,我认为通过传统的石油和天然气业务为世界提供可持续能源的重要性,现在比以往任何时候都更加重要。

吴Yanyan:
我们的客户和我们在能源行业面临的另一个挑战是如何提高传统油气行业的效率或生产力。他们如何做到这一点,他们必须有正确的数据。根据我之前的经验,我认为每个公司都有数据。

吴Yanyan:
没有公司说我没有任何数据,他们都有数据。问题是,如果你只看数据,你自己的数据,这还不够吗?它可能会产生一些能力和一些见解,但如果你能够将数据与来自其他数据源的丰富数据联系起来,你将获得指数级的价值,这些数据现在由McKenzie和语音提供。

吴Yanyan:
所以我们的角色主要是我们能够收集更丰富的数据,我们能够帮助我们的客户从他们拥有的数据中获得更大、更多的见解。

克里斯·达:
您能不能谈一下公司内部的策略来确定这些替代数据集和这些第三方数据集?你能谈谈你的团队以及你是如何构思的吗?如果我们有了这些数据集,我们可能会得到这样的见解,这将有助于石油和天然气行业提高效率或生产力。

克里斯·达:
您和您的团队如何发现有意义的数据集?

吴Yanyan:
是的,这些数据现在是巨大的。所以实际上你不需要发现它,只是扔给你。这是大量的数据。问题是你如何优先考虑它们。您如何知道哪个数据源更好,哪个数据源更好?哪一个对客户更重要?否则,你将没有时间睡觉或吃饭,因为数据是巨大的。

吴Yanyan:
所以我们花了很多时间来识别这么多的数据集。哪个对我们的客户更重要哪个覆盖范围更广,频率更高?然后可能是我们必须使用什么策略来组合数据集。回到我之前在通用电气的日子,我负责的是飞机发动机业务。

吴Yanyan:
当我们做一个项目时我们称之为多模式检查,基本上不同的检查和检查方法,它有不同的优势。你怎么能得到最好的数据集,把这些数据融合在一起我们称之为多模态数据融合我们有一个关于我以前业务的专利。

吴Yanyan:
同样的道理也适用于油气行业,你必须能够找到一种方法来融合这些数据,这样你就可以为客户提供最好的数据集。大部分时间都是这样度过的。了解不同数据源的数据质量,以及如何有效地提出策略,将数据融合在一起,为我们的客户提供最好的数据集。

克里斯·达:
我们来谈谈数据平台领域的技术是如何随着时间发展的。bob体育客户端下载因为你已经做了一段时间,做了数据融合,你知道,如果你的经历和我的经历一样,数据存储在不同的系统中。你可以对这些核心系统做一些分析,但很难大规模地把数据集中起来,并运行算法,及时地给你新的见解。

克里斯·达:
你也见过这种情况吗?

吴Yanyan:
你知道,如果你回顾这些年来,你记得你的Excel,时间,Excel,你知道,每个人的Excel, Excel是最好的,无论你有什么。是的,但是我想很多人都知道,你知道,现在所有这些工具都有局限性,对吧?这些数据就像我说的,数据在增长。

吴Yanyan:
这只是一种与日俱增的表达方式。更大的Excel可以非常非常有效地处理数百万行的数据。正确的。我认为这是非常有效的方法。然而,数据的增长被称为增长。除此之外,我们还有数十亿行和数十万列的结构和结构数据。如何找到那个平台,让你能够快速处理bob体育客户端下载那些数据。

吴Yanyan:
正确的。如果你想在任何自动化或任何建筑规模中,如果你想调试任何东西。我们怎样才能找到一个你不用等上几个小时的工具呢?只要得到一串反馈,然后说,你知道,去弄清楚你做的是否正确。就这些能力而言,我认为我们发现数据库是一个很好的平台,可以让我们能够有效地,高效地处理数十亿行的大数据,同时还可以减少我们所花费的时间上的滞后。bob体育客户端下载

吴Yanyan:
就如何链接来自不同来源的数据而言。但在另一个湖屋结构中,你知道,它真的,你知道,你有元数据存储在数据库中。你可以把所有的数据透明放到同一个平台上。bob体育客户端下载每个人都能看到数据,它就在那里。你可以做时间旅行。

吴Yanyan:
所以你不需要担心,如果我把这个版本的数据类型搞砸了,就会得到原来的版本。你可以很容易地调用之前的版本你可以用自动加载这些功能,你可以找出数据之外的内容。因此,所有这些都可以在数据、数据库、平台上完成,这并不容易。bob体育客户端下载

吴Yanyan:
这是我们以前无法想象的。我们从这些数据中获得的另一个好处是通过安排工作来提高效率。以前,你必须在某一天起床,然后在早上开始日常工作。现在你可以自动安排和通知一旦工作完成。

吴Yanyan:
因此,我们节省的所有时间,现在我们可以专注于我们所有的数据质量,提高数据的完整性,以及数据的洞察力和实现目标的能力。它真正开始使用我们的专业知识来从我们拥有的数据中提取代码,而不是仅仅管理这些数据的物流,这是大数据。

克里斯·达:
是的,我们谈过,你知道,很多领导者,特别是我在公司的角色,和很多领导者谈过一个共同的主题是给用户更多的时间来做分析。因此,组织正在远离试图在管道中做大量与数据移动相关的基础设施,数据集群管理和诸如此类的事情,他们认为这不会为他们的组织提供竞争优势。

克里斯·达:
他们说,看,你知道,我们真的不想担心数据的流动。在数据的可用性方面,我们希望尽可能多地实现自动化。我们希望让我们的工程师、数据科学社区和数据分析社区分析数据,并更快地获得这些见解。

克里斯·达:
这是真实的,非常一致。是的,我们在石油和天然气行业有客户,壳牌石油对我们来说是一个大客户。Dan Jevons在这个播客上,他做了很多演讲,你知道,在不同的论坛上与Databricks一起。对于观众来说,如果你想听的话,我们有一个很棒的播客,但我们更想听你和你的Verisk团队在做什么,因为你知道,比如壳牌,他们在供应链分析方面做了很多工作。

克里斯·达:
他们正在考虑疲劳程度、设备疲劳程度以及何时可能需要为石油钻井平台更换部件。贵公司为油气行业提供了非常酷的服务。所以,你知道,也许没有具体的客户,你能告诉我们你为石油和天然气提供什么样的支持吗?

吴Yanyan:
如果你看一下麦肯齐提供的所有服务,我们是一个数据提供商,我们为能源和能源投资行业提供咨询服务。数据,就像我说的,所有公司面临的挑战是他们有自己的数据。对吧?他们非常非常了解自己公司的数据。然而,他们可能没有他们喜欢的跨行业的行业数据。

吴Yanyan:
他们要么喜欢他们同行业中的同行,要么是相关的,甚至其中一些相关的供应商信息,他们可能没有。所以我们所提供的,就是我们的起点。所以我们提供了他们自己可能没有的数据。所以这是跨行业的,跨不同的公司,跨不同的领域。这是一个方面,比如,如果一个运营商加入了一个地区,如果他们想知道另一个地区发生了什么。

吴Yanyan:
生产活动数据是什么,投资回报是什么?我们可以提供给他们的成本是多少,这样他们就可以把他们的生产力特征作为基准,看看他们是否需要搬到其他地区进行投资。然后是另一个除法。这不是我的部门,但这个部门会提供实时能源数据。

吴Yanyan:
所以他们到处都有传感器和网络。例如,他们可以测量州、县之间的发电量,通过测量管道上的传感器来实时测量石油和天然气的产量。所以实时测量数据,这是另一个智慧如果你想等,我想报告有滞后的数据,它不是实时的,可能是两三个月,或者是不同州的任何月份。

吴Yanyan:
你得到了那些,发电数字或气体数字或任何与能源相关的数字,都有不足。但是有了这个业务,他们到处都有实时测量传感器,然后他们可以为你提供与能源业务相关的实时数据。所以我们为我们的客户填补了很多漏洞,他们的口袋里没有他们自己的数据,他们可以利用我们拥有的数据,所以他们可以创建有意义的链接数据集,以产生更多的见解,基于我们提供的那些。

克里斯·达:
所以这些客户使用这些数据洞察和数据产品,你知道,在理论上做出决策,从他们的终端真正影响数百万美元的投资,对吧?让我们来谈谈数据质量,以及确保生成良好数据集的重要性,这些数据集可以让你产生这些见解。

吴Yanyan:
是的,这是我们实际上我们主要关注三件事。一个是数据的及时性,然后是完整性,然后是准确性。所有这些都是关键。哦,有三个方面,数据质量的关键组成部分。所以它不只是检查正确或错误,而是必须是永恒的,必须是足够的,必须是完整的。

吴Yanyan:
我们在这方面花了很多时间。所以完整意味着你为什么有大数据,对吧?数据集,你可以从成千上万的数据源中聚合数据,把它们放在一起,检查它们,查看数据配置文件。去除噪声,采用高效的去噪算法。你不能只是目测,必须有自动化的程序来做所有的事情。

吴Yanyan:
它必须有一个像我们使用的可靠平台。bob体育客户端下载我们使用云提供商。我们的平bob体育客户端下载台,包括Databricks,它是一个专家,专门从事大数据处理,使我们能够提高数据质量。我们没有这些工具,这是不可能做到的。

克里斯·达:
好的。所以我们要我们要过渡到一些有趣的话题,这些话题只是数据空间之外的,因为我们在飞机方面有共同的背景,并且对它充满热情。但是你知道,总的来说,我是说,听起来在你的职业生涯中,你总是你总是和数据打交道。你一直把它当做一种激情,而不是你专门去追求的东西。

克里斯·达:
所以你的激情带你进入了数据领域,你知道,不同的数据分析,不同类型的数据集和不同类型的见解。但共同的主题是这些组织收集了大量的数据。他们有很多内部数据。你发现自己现在能够做的是将内部数据与外部数据源结合起来,并找到增加价值的方法。

克里斯·达:
你有一个团队为你的客户提供这些服务。这是一个非常快速的总结。

吴Yanyan:
是的,它是。克丽丝再补充一下你刚才说的话。正是如此,我认为千篇一律,对吧。不管我演什么角色。举个例子,我当时在为通用电气做一个飞机发动机研究项目。现在麦肯齐和Verisk都在为各种类型提供数据能源数据,关键是你如何收集数据。

吴Yanyan:
你如何确保你所拥有的数据并将它们结合起来得到最好的数据?做最好的决定我举个例子,我们曾经有一个关于这个的专利申请。它被称为飞机发动机多模态检测项目。所以基本上如果你理解一个需求,这是对飞机发动机的无损评估检查,你必须找出不同的方式有不同的优势。

吴Yanyan:
超声波能很好地识别这些层。所以传播是x射线非常擅长的,而x射线擅长于近距离识别。所以如果任何密度变化都是非常敏感的,坐标测量机,三坐标测量机擅长测量X-Y-Z坐标。所以如果你把它们放在一起,你会得到最好的数据集,对吧?我们称之为数据融合,一次检查多个数据。

吴Yanyan:
和我们现在研究的能源数据集是一样的。正如我之前提到的,数据是巨大的。你如何结合来自不同数据集,不同来源的数据,并为你的客户提供最好的数据。这也是数据融合,对吧?所有这些都与三维世界中的内容无关,三维世界中的几何图形,这是我的飞机发动机时间,现在是时间

吴Yanyan:
卷云数据结构和非结构化时间卷云数据。但关键是你如何理解策略,你能不能建立一个团队,他们制定策略,找到最好的平台,像Databricks或其他提供商,最好的工具,让你更有效地理解你的数据。bob体育客户端下载能够有效地处理数据,并结合数据集融合它们。

吴Yanyan:
所以为你的客户提供最好的数据集这样他们就能做出最好的决定。

克里斯•达
所以我的意思是,我喜欢的东西,你知道,正如你知道的,我非常喜欢飞机,你知道,飞机发动机设计。比如,飞机发动机,尤其是喷气发动机,最吸引我的地方在于它是自己的动力装置。正确的。我们在全球范围内谈论的减少碳足迹的事情在那里很重要。

克里斯•达
对吧?你希望这些引擎在排放方面尽可能的省油,尽可能的低。所以在这个设计中有很多工程设计。这些引擎显然必须是可靠的因为你不希望引擎在飞行中途熄火。正如你所说,这其中的一部分是,研究如何制造风扇叶片的材料科学,并确保它们尽可能的轻量化,但它们也尽可能的坚固。

克里斯•达
而且,你知道,有研究飞机设计之类的人知道,鸟类是用来测试飞机发动机的。你知道,他们会在一个测试设施里运行一个飞机引擎,一只鸟会飞进去。但是,你知道吗,我从你身上学到了这不是普通的老鸟。

克里斯•达
这是一种非常特殊的鸟。所以请和观众分享一下。

吴Yanyan:
是的,飞机发动机可能是我工作过的最严格的行业因为它关系到生活,对吧。你知道你所做的一切都关系到人民的安全。如果你看一下,你知道,这实际上都是关于数据跟踪的,对吧?所以当我在飞机发动机项目中工作时,你去那些工厂,这很吸引人。

吴Yanyan:
但如果你仔细观察,你会发现这一切都是关于数据的,而不是像你做了一壶水,做了一台电脑,然后每个人看起来都一样。但对于我们的飞机来说,每架飞机都有一个生命证书,有一个序列号。你可以追踪它,你可以追踪它的材料从哪里来的材料是什么时候制造的,过程的哪一步。

吴Yanyan:
它有一个类似飞机引擎的证书。这是你能想象到的最干净的结构实际上它比我的厨房还好。它非常非常干净,所有的东西都经过了检查,你所做的一切都要经过认证。但是他们认证的都是数据,对吧?所以,如果你看看今天的能源业务,我们所从事的业务更像是不同的规模,因为我们没有跟踪单个的落脚点或每个单独的井口,我们跟踪的是一批油田,它在生产中。

吴Yanyan:
但这是一个不同的挑战当你的数据规模上升时。所以飞机引擎在世界上就是你。我们如何确保风险是每个个体的风险都比较低,包括你必须射杀加拿大鹅以及基于眼睛和你所做的所有事情的项目。

吴Yanyan:
但在当今世界,你必须确保我们拥有的海量数据,必须减少数据质量问题,你必须减少噪音,确保在大规模范围内,当他们使用我们的数据时,风险是最低的,他们可以对基于我们的数据做出的决定充满信心。

吴Yanyan:
所以这是不同的,但对飞机发动机或能源数据或自己的天然气或发电厂来说并不重要。当你观察日常生活时,就像大多数与我们一起工作的人一样,数据是理解数据,以及如何根据我们拥有的数据为每个人降低风险,包括实时风险。

克里斯•达
是的。这很吸引人。所以对于坐飞机的人来说,你应该感谢加拿大鹅为你的安全提供了帮助。我们还采访了劳斯莱斯飞机发动机公司的斯图尔特·休斯。这个播客很有趣,因为罗尔斯·罗伊斯是如何将飞机发动机货币化的。所以如果你正在收听,你还没有听过那个播客,那就去那里,你知道,去我们的网站上听一听吧。

克里斯•达
好吧,让我们结束吧。所以,我的意思是,你在你的职业生涯中追随你的激情。这太棒了。你会给那些听到你故事的人什么建议?你知道,他们会了解你的博士背景,你所做的研究,你支持过的不同组织。现在你在Verisk所做的事情对我们有帮助,你会给那些有抱负的人什么建议,也许有一天会成为你的角色?

Yanyan吴
永远追随你的激情。所以还有人来找我,尤其是那些刚开始工作的人,你知道,问我的建议,他们下一步该怎么做,我总是给他们建议。不要仅仅根据今天的困难程度来衡量你需要去哪里。今天会很艰难。

Yanyan吴
明天就不难了。看看其他你有激情的领域。如果你真的对数据有热情,我的建议是你可以问我关于你的机械工程师,你是双E,就像你克里斯,双E专业。你会怎么做?上一些课程,如果你想的话,采取一些行动,然后不要像在这个世界上那样思考,对吧?

Yanyan吴
我们习惯了你只是成为一个经理来领导你的团队。现在在数据世界里,不仅仅是任何技术世界里的数据。他们领导你,他们需要领导。真正有远见的领导者,下一个史蒂夫·乔布斯和蒂姆·库克,这些人开始了,我认为人们喜欢他们,不是因为他们的经理,而是因为他们很有远见,他们动手。

Yanyan吴
他们可以做这项工作。他们知道细节。你知道,他知道如何挽救这个项目,因为他有知识,他有经验,使他们能够做到这一点。人们认为他们是有附加值的领导者。所以这是,你知道,我会建议任何渴望成为我的角色的人,然后成为数据世界的领导者,你必须考虑一下。

Yanyan吴
我能做些什么来提高我的技能和经验,让我成为一个有远见的领导者?

Yanyan吴
感谢您收看本期由Databricks为您带来的数据和人工智能冠军节目。成千上万的数据领导者依靠Databricks来简化数据和人工智能,使数据团队能够更快地创新并解决世界上最棘手的问题。访问Databricks . com,了解数据领导者如何释放所有数据的真正潜力。