人工智能数据的伦理使用

当用于改善客户体验的数据存在未知或固有偏见时会发生什么?JoAnn Stonier讨论了在实现机器学习和人工智能用例时数据的道德使用。她还分享了她对组织可以采取哪些步骤来消除数据中出现的偏见的看法。

乔安的
首席数据官
万事达卡
JoAnn C. Stonier是万事达卡的首席数据官，领导该组织的数据创新工作，同时应对当前和未来的数据风险。她负责监督公司大量数据资产的管理、质量、治理和管理。JoAnn和她的团队设计并实施万事达卡的全球数据战略，指导企业部署尖端数据解决方案，包括高级分析和人工智能，以及企业数据平台的开发。bob体育客户端下载她的领导是万事达通过不断扩大的数据驱动产品和能力，深化其为商家、银行和政府客户以及持卡人提供的战略价值的不可或缺的一部分。

JoAnn此前曾担任该公司的首席信息治理和隐私官，负责全球隐私和信息治理，并领导数据合规监管参与。

JoAnn在紧急数据和隐私问题方面是公认的、广受欢迎的思想领袖。她曾为行业高管、政府、政府间组织和非政府组织提供咨询。目前，她在联合国治理和人工智能专家组任职，并担任世界经济论坛数据政策全球未来委员会联合主席。JoAnn还担任Truata(由Mastercard和IBM共同创立的数据信托公司)的董事会顾问，希望勇士(非营利退伍军人服务组织)的董事会和治理委员会成员，以及圣乌苏拉山学院(她在纽约布朗克斯上高中)的董事会和执行与财务委员会成员。

JoAnn在圣约翰大学获得法学博士学位，在圣弗朗西斯学院获得理学学士学位。她拥有纽约州律师协会和新泽西州律师协会的会员资格。她现居纽约州珀切斯

阅读面试

演讲者1:
欢迎来到Databricks为您带来的数据+人工智能冠军。在每一期节目中，我们向数据+人工智能的捍卫者致敬，他们正在改变现状。这些“特立独行者”正在重新思考数据和人工智能如何增强人类体验。我们将深入了解他们的挑战，庆祝他们的成功，同时更深入地了解这些领导人。

克里斯·达:
大家好，我是克里斯·达戈斯蒂诺，欢迎来到数据和人工智能的冠军播客。不用说，数据在我们体验世界的方式中发挥着积极的作用，从我们消费的娱乐到我们的健康和财务状况，以及其他无价的例子，数据的影响正在增长。当用于改善我们体验的数据存在未知或固有偏见时会发生什么?在今天的节目中，我和万事达首席数据官JoAnne Stonier一起讨论在实施机器学习和人工智能用例时数据的道德使用。她还分享了她对组织可以采取哪些步骤来消除数据中出现的偏见的看法。JoAnne，谢谢你的到来。

乔安妮的:
谢谢你克里斯。很高兴加入你们，成为数据和人工智能冠军的一员。

克里斯·达:
好吧。所以在我们开始今天的节目之前，让我们先给听众们做一下水平设定。2018年2月，你被任命为万事达卡的首任首席数据官，在此之前，你曾担任首席隐私官。你能回顾一下三年前，这个角色在这段时间里是如何演变的吗?

乔安妮的:
好吧，我认为如果你回到过去，过去的一年对我们所有人来说都是有趣的一年。所以我们会稍微谈谈COVID，但当你回顾过去的时候，我认为我的角色确实发生了变化，因为GDPR产生了所有的要求，这是第一个真正的全球隐私法规，其中嵌入了大量的运营数据要求。我的角色在一定程度上是因为那项法律以及所有的操作数据需求。我认为我们当时专注于真正改善我们的数据实践，试图弄清楚我们将如何在合规的世界中导航，同时仍能实现创新，并导航来自监管框架的风险。

乔安妮的:
我认为，当我审视我们现在所处的位置时，我认为我们仍然拥有所有这些，我们在这方面做得非常好，但创新的世界已经加速了。我认为，作为创新的原材料，数据得到了更多的理解和期望，但我认为，除了监管风险、隐私和安全之外，其他类型的数据风险也得到了更好的理解。我认为数据质量的问题得到了更好的理解，与人工智能和偏见相关的问题得到了更好的理解。所以我们看到世界朝着数据创新的方向发展得越来越快，随之而来的风险和机遇也越来越多。所以我的职位实际上已经演变成了一个数据策略的角色。我们总是站在战略桌前，试图弄清楚我们可以用数据做什么，但为了建立更经得起未来考验的能力、平台和产品，我们需要一个非常战略性的视角。bob体育客户端下载

克里斯·达:
是的。作为一家全球性公司，我来自Capital One，我们在美国有业务，但在加拿大和英国也有业务，在我的角色中，GDPR和CCPA对我来说也是前沿和中心，领导数据工程，建立数据合规和数据治理工具。当然，我认为可能在过去的几年里，随着CCPA的上线，这对任何需要保护客户数据的组织来说都是一个巨大的挑战。

乔安妮的:
对我们来说，这只是一个设计限制。我认为我们一直是隐私和数据保护的领导者。当我回想起GDPR时，我们总是通过设计方法来保护隐私。我认为GDPR使一些事情比以前更加全球化。当然，从那以后，我们在巴西看到了CCPA法律，其他国家也复制了GDPR的一些元素。但我们为GDPR采取的方法是一种全球性的方法。我们真的仔细考虑了一下，然后说，为什么我们要保护一组组成部分的数据，一组客户的数据，而不是其他的?所以我们真的采取了负责任的数据方法，一种全球性的方法，在我们创新的过程中，用数据为个人和客户做正确的事情?

克里斯·达:
您是数据治理方面的专家，对吗?但你学的是会计和法律，我觉得很有意思。上次我们谈话时，你谈到了你的创意出口是设计。那么，这些学科之间是否存在一个拐点，让你在每个领域的背景都能帮助你更有效地发挥你的作用?

乔安妮的:
嗯，我喜欢这么想，对吧。我想，如果你，首先，我喜欢学习。我认为我是一个终身学习者。我认为会计，当你回顾我的职业生涯时，我一开始是会计和审计师。如果你想到审计，如果你了解这个技能集，你必须了解事物是如何连接和控制的。因此，审核员技能集中的工具之一是流程图，这是你学习的技能之一，以便弄清楚流程是如何工作的以及如何应用控制。好吧，这并不是一个很大的飞跃来理解这就是计算机系统是如何创建的以及数据流是如何创建的。流程图技能显然是我今天在工作中用到的技能，但我以前当审计员的时候也用过，因为计算机辅助审计在我还是个小审计员的时候才刚刚起步。所以这个技能又回到了原点。

乔安妮的:
我的法律技能显然在各种隐私数据保护法的出现中发挥了作用，但所有其他类型的数据限制法律，合同法，土壤法，公平信用报告法一类的法律，我们必须遵守的法律，银行法，为了将数据用于创新。所以在设计系统和解决方案时，理解这些限制是很重要的。设计技能，我认为可能是我拥有的最重要的技能之一，因为它们确实帮助我思考，你如何创建一个解决方案，在所有的限制下工作?这就是我的想法。

克里斯·达:
所以JoAnne，从更广泛的角度思考人工智能，以及人工智能是如何应用于一系列用例的，无论是在万事达卡内部还是外部，你能想到一个人工智能是如何在更广泛的社会中对你的生活产生积极影响的例子吗?

乔安妮的:
嗯，我当然可以，因为自新冠疫情爆发以来，我们一直在与许多组织合作。bob体育外网下载当你想到我们所生活的环境时，我们在Zoom上这样做是因为我们需要在病毒和大流行仍然肆虐的时候保持安全和健康。我认为人工智能实际上已经被用来帮助整理所有数据，以开发疫苗。所以如果你想一下，人工智能和机器学习的力量之一是它能够处理成堆的信息，区分哪些是重要的，哪些是不重要的。我认为，我不是健康科学家，但从我所读到的关于疫苗的一切，如果没有人工智能和机器学习，我们永远不可能如此迅速地找到解决方案。

乔安妮的:
所以我认为我们必须了解这一点，并理解DNA和RNA的测序实际上使我们能够更快地得到解决方案。所以当我被问到这个问题时，我想，哦，我的天哪，我们现在就生活在这个时刻!话虽如此，在万事达卡，我们并不一定会参与其中，但我们所参与的与疫苗护照有关，这将是下一件事，为了在这个世界上走动，我们都将需要它。所以连接数据，不一定是人工智能，但连接数据在这个时代也是超级重要的。那么，我们如何在一个需要以尊重个人的方式交换信息的世界中航行呢?人工智能有很多不同的元素，但如何将其用于多种目的呢?

乔安妮的:
所以我们有了疫苗，但是我们如何以一种隐私敏感的方式分享信息，同时也有影响力，让我们所有人都能在这个世界上航行，我们现在需要知道某种状态，这样我们就能旅行和重新联系，再次见到我们的家人，以一种对我们所有人都安全的方式开展业务。我认为这是第一个用例。

乔安妮的:
在万事达卡，我们一直在使用人工智能和机器学习来应对欺诈和网络。我认为这些方法对改善我们的生活，保护我们，为我们的客户和持卡人提供安全和保障都有很大的影响。我认为所有这些都是非常有影响力的。它可能比COVID更安静，但我确实认为所有这些用例实际上都改善了我们的生活。但我知道我们也会讨论一下人工智能和机器学习的一些缺点。我们也不得不，在过去的一年里，我们开始理解这些，因为我们有一些关于数据的社会影响的对话，以及我们需要如何确保它更具包容性。

克里斯·达:
是的。在Databricks，我们非常自豪的是，我们的平台一直是一个数据科学引擎，推动了许多围绕正在开发的药物疗法和bob体育客户端下载疫苗的研究，此外，英国的NHS正在使用Databricks来优化医院内的患者护理，并与跟踪和跟踪项目合作。因此，我们正在应用机器学习算法来帮助确保重症监护室(ICU)和其他类似的地方为病人提供床位。

克里斯·达:
所以我们正在讨论，你谈到了一些关于全球护照和数据的道德使用。我知道在2019年，万事达卡推出了一份名为“全球数据责任”的文件，它基本上谈到了确保你可以安全、可靠地持有数据，以符合道德和合规的方式利用数据，并使他人受益的必要性。当然，你希望能够在现有数据集的基础上进行创新。你能跟我们分享一下你为什么要制作这份文件吗?我认为，看到像万事达这样的大公司，拥有如此多的数据，人们采取这样的立场，确保你将以道德的方式对待数据，以及它如何适用于为算法开发而构建的模型，这是一件很棒的事情。

乔安妮的:
因此，我们制定了数据责任的必要性，部分原因是我们认为，作为一个数据生态系统，我们开始为我们的客户，为我们的消费者，实际上为我们所有的商业合作伙伴建模是非常重要的，因为这就是万事达卡的运作方式，我们每天和每年都在处理数十亿笔交易，我们实际上解释了我们的数据实践是什么。bob体育外网下载因为在2019年，我们开始真正意识到我们是通过数据联系在一起的，我们所有人都是联系在一起的。因此，我们不仅需要为我们的行为建模，还需要开始对其他人说，拥有负责任的数据实践是非常重要的。所以我们从真正重要的东西开始，那就是个人，数据对个人有很大的影响，我们相信个人有权拥有他们的数据，当它是个人数据时，他们应该了解它是如何被使用的，他们应该有机会控制它。当然，他们应该对隐私和安全有所期待。

乔安妮的:
我们说，好吧，这将是非常好的，但回应将是，好吧，万事达卡，你在做什么?这就是我们提出自己的原则的地方，关于隐私和安全，我们在很长一段时间里也有专门的实践。但除此之外，还有问责制，我们要对我们如何使用你的数据负责，我们要透明，我们要提供控制，我们也要加倍努力，在我们的实践中保持诚信，这样我们才能创新。在我们的创新中，我们会注意人工智能等东西，同时我们会透明地使用数据，不一定是在个人层面，而是在整体层面来改善社会，我认为这在2019年是新颖的。

乔安妮的:
当你经历像2020年这样的一年时，我认为在新冠疫情之后，人们现在可以更多地支持它。但这确实是我们试图开始与其他志同道合的组织的对话，好吧，如果我们要有这些原则，那么与它们相适应的实践是什么?那么如何提供透明度呢?你如何负责?你如何解释?你如何允许个人控制他们的数据，访问这些数据?当然，有些法律要求这样做，但我们怎么能更进一步呢?这些就是我们的数据责任所代表的类型。万事达卡有一整套的实践与之配套。然后我们与其他志同道合的组织合作，随着数据和数据使用在我们这个相互关联的数据驱动的世界中不断发展，我们实际上试图把它走得更远。

克里斯·达:
让我们深入研究一下。在与Databricks的其他客户以及那些正在将其组织转型为更加人工智能和数据驱动的客户交谈时，他们谈到了他们现在做数据科学的方式，他们训练模型的方式。根据我自己在Capital One工作的经验，你经常会看到单节点数据科学工作是由开发人员或数据科学家在他或她的笔记本电脑上工作，将数据拉入那个环境。因此，大多数组织正在学习人工智能的一件事是，最重要的因素是拥有大量的高质量数据，你可以利用这些数据在你的培训中进行特征工程。所以你的数据集越小，数据集内部可能存在固有偏见的风险就越大。所以我们可以谈谈偏见吗，论文谈到算法在某些情况下会加强偏见或传播错误信息。所以我们想听听你对数据集如何影响或影响确保偏见不会无意中被引入的看法。

乔安妮的:
好的。这是一个很大的话题，所以我也欢迎你的想法。当我们开始研究我们的人工智能和人工智能机器学习过程时，我们把它分解成我们在万事达卡工作的三个关键领域，从数据集开始。因此，虽然我们同意数据科学家更容易处理更大的数据集，而更小的数据集可能会有问题，但我们真的会关注我们使用的数据集，以及它们是否适合我们的目的?这些信息的来源是什么?数据集本身是否存在固有偏见?我最喜欢的例子是，因为我们刚刚经历了一个选举周期，我很快就会更新它，如果你使用1910年的选民名册，他们可能是准确的，也可能不是，但因为他们可能是手工准备的。但如果你明白这些数据集主要是男性，那就好了。如果你不这样做，你使用这个数据集，你试图为当今社会解决一个问题，它将是非常不准确的，因为数据集存在固有的偏见。

乔安妮的:
这是人工智能和机器学习的挑战，我认为我们必须提高所有人的认识。所以数据集可能是稳健的。它可能有一个很好的种群，但它可能不适合数据科学家今天使用它的目的。那么数据中有什么呢?它是如何编译的?它是否有平坦的边，对于你想要解决的问题，在这个时代是非常重要的。这就是问题之一。我们并不是为人工智能和机器学习创建所有的数据集，我们创建数据集是出于各种原因。机器或询问会问，这个数据集中存在什么条件我能从中学到什么?

乔安妮的:
数据集可能有一些不正确的或者只是固有的条件，会告诉机器一些东西，然后它会得出一个关于总体的错误的结论。因此，这可能会得出一个结论，女性比男性更不可能投票。从那个数据集来看，这是对的，但实际上如果你把它应用到今天的情况，就不成立了。这些是我认为我们作为数据科学家、数据设计师，在研究不同的数据源时，在研究数据集的质量、一致性、准确性和完整性时，必须真正理解的事情，因为我们将它们放入人工智能和机器学习过程中。所以我认为这方面很重要。

克里斯·达:
这是模型漂移潜力的一个很好的例子。你建立了一个模型，在给定的数据集上训练这个模型，你有所有正确的意图，然后你意识到其中有一些偏见。然后决策引擎执行这个模型并做出决策，对吧?

乔安妮的:
嗯哼(肯定)。这也发生在算法本身的过程中。所以机器也可以通过基线信息得出这些结论。另一个例子，你输入一个英语字典和一个西班牙语字典，因为你想做翻译。机器会把这些都读入。因此，它会根据所给予的东西来推断，医生是男人。那是怎么发生的呢?西班牙语中的代词，El Doctor，对吧?再说一遍，这与故意误导的事实无关。而是机器会把它得到的信息灌输给它，它会从中学习。 And again, those pronouns in Spanish will have implications into English and into then information that will be derived if we don’t understand what we fed into the system.

克里斯·达:
是的,当然。公司内部的流程是关于你如何认识到偏见的存在，你如何解释它，你如何修正它，我们会做一些非常上游的分析来观察数据集以及这些数据集是如何演变的，他们的方案是如何演变的。我们实际上会使用分类算法来确定实际的数据是否在变化，以及它们是否与之前的历史一致。那么，您是否有适当的机制或技术，您会向我们的听众推荐您如何建立治理生命周期，以确保继续进入组织的数据以及可能获得的新数据集不会无意中引入这种偏见?

乔安妮的:
你说的一些东西。所以你必须持续观察正在被消费的数据集，你必须持续进行质量评估，即使这是一个你已经消费了一段时间的数据集，你必须了解它的谱系。你必须了解它是如何被创造出来的。这种评估必须是你的AI和分析过程的重要组成部分。你还必须寻找代理变量。所以即使你认为你理解了一个数据集，也有一些代理变量你必须仔细检查，位置总是其中之一。位置是一个变量，当它与其他事物联系在一起时，它可以衍生出大量的信息。所以它将成为机器开始学习的其他信息的代理或替代品，如果它与一个模式连接了足够多的时间。这些是其他类型的扫描在任何事情发生之前，我们把它们放在我们的治理实践中。

克里斯·达:
JoAnne，我们今天谈了很多关于数据和人工智能的伦理。我很想从你那里听到的一件事是，你会给那些处于类似角色的同行什么建议，这些同行正在努力确保数据、道德规范和人工智能成为推动商业价值向前发展的解决方案的一部分?

乔安妮的:
好吧，我想我们现在在万事达卡做了一些这样的事情。我们开始真正审视我们所有的产品和解决方案，并认识到每个业务都在成为数据驱动的业务，我们正在努力了解如何帮助客户满足他们的数据需求。所以要从数据的角度来审视和评估你所有的产品和解决方案，其中包含了哪些数据。你的数据源是什么，了解你使用的供应商。当我们谈到负责任的人工智能时，我们谈到了一点关于它们的问题，你对你购买的人工智能的理解程度和你创造的人工智能的理解程度一样吗?我想每个人都应该明白这一点。但除此之外，你们基于数据创造了哪些产品和解决方案?你们是否有负责任的数据实践，以便了解其中信息的质量?你的产品设计师，你所有的业务人员是否理解你可能出于错误的目的使用错误的数据而造成的一些无意的偏见?我们开始重新训练我们公司的大脑，这样我们就能提高这方面的意识。

乔安妮的:
我也认为，我们需要真正从培训和教育的角度来看待我们的员工，我认为我们还必须确保我们有一个多元化和包容性的劳动力，这样你就有很多不同的角度来解决问题，从人才的多元宇宙。如果你错过了这一点，我认为你也将错过所需的解决方案类型，以及你在未来的解决方案中可能产生的那些无意的影响。所以我认为我所有的同行都在为人才而奋斗，因为数据人才很难找到，但我确实认为，创建正确的教育管道是我们所有人作为领导者的责任，以确保我们有合适的人坐在桌旁设计未来。

乔安妮的:
这实际上是治理和过程的问题。你会把道德问题和挑战纳入你的过程中以确保你提出了这些棘手的问题吗?在你的组织中有没有人被授权说不?他们真的有权力说，我们不会去那里，这与我们的原则不一致吗?我今天早上真的在一次谈话中，我们在谈论我们的原则，我们说，你知道吗，这不对，我们不打算这么做。我真的很高兴，因为说这话的不是我，而是公司里的其他人。所以我知道我们的原则是坚持的，我们坚持我们的原则，这真的是一个很好的地方。所以我向我的很多同事推荐这种方法，因为这是一种让首席数据官以外的其他人在组织中负责任的方法。

克里斯·达:
是的。与你讨论所有这些不同的局部主题,想到的东西对我来说现在是我们走出这次选举周期中,我们已经通过,至少经过COVID流行和响应的中途,现在推出的疫苗和全球影响,我思考的是错误信息,虚假信息,以及我们每个人都有一种根植于我们的信念,有时候我们的信仰不完全基于事实。所以我试着去思考，在接下来的五年里，虽然在某些方面人们变得更加分裂，但我认为人们对于我们可以相信哪些信息的意识比以往任何时候都要强烈得多?我用来形成我的观点的数据的真实性是多少?所以我很好奇，在接下来的五年里，你会如何看待信息的准确性和数据的道德使用，比如2020年是多么疯狂的一年，你会如何看待这对未来五年的影响。

乔安妮的:
我很高兴你提起这事。我在董事会的风险委员会上讨论了这个问题，我们对未来的风险进行了一轮循环，我们需要应对哪些风险，我们特别讨论了数据风险，有一大堆人在董事会上提出了一系列风险。他们来找我，我说错误信息是主要风险之一。所有人都说，哦。我认为数据谱系将变得越来越重要。数据从何而来，该来源的可信度如何，是主要来源还是次要来源?这些信息被操纵的机会有多大?

乔安妮的:
我们已经看到了虚假信息的影响以及它所能带来的真正影响。我们如何创建正确的标签机制和交换，这样我们就可以，包括区块链和其他机制，这样我们就可以开始验证信息是准确和完整的，在我们把它用于我们在人工智能中讨论的数据科学的类型之前，因为错误信息的放大效应是一个非常非常可怕的未来。因此，我认为在数据共享生态系统中，所有组织都有责任找出信息的谱系，从而提高准确性，减少错误信息。但同样有责任的是，我们要想出正确的技术来讲述关于信息的故事，让大数据对普通人来说更容易获取，这样他们就能了解关于他们的信息是如何被处理的，如何被使用的，这样他们就能在关于他们和他们周围的世界中有更大的舒适感，并真实地为他们创造真正的利益。

克里斯·达:
好的,乔安妮。所以谢谢你。这是一个非常有趣的讨论。在这个播客中，我们向所有数据和人工智能领导者提出的问题之一是，问他们，你会给有抱负的数据首席数据官、首席数据官，以及那些真正想在数据、数据科学和数据分析领域发展事业的人什么建议?你会给这些人什么建议?

乔安妮的:
我认为如果你想在这个领域工作，首先要保持好奇心，要知道这个领域是会改变的。它是一个常数。数据的使用，数据的数量只会增长，技术和工具也会增加。所以你必须紧跟潮流。所以我认为保持好奇心并享受这种变化是一项关键技能。如果你抗拒改变，你会很痛苦。如果你不喜欢改变，这不是一个好地方。

乔安妮的:
我认为另一个建议是要慷慨，慷慨地奉献你的时间，慷慨地奉献你的知识，因为这种变化，你不得不愿意奉献你的知识，以获得更多的知识。最后一部分总是被推到知识的边缘。我的老板很久很久以前教过我，因为这是最好的学习方式。所以继续学习吧。我再次想到，数据对我的职业发展非常非常好。它一直让我很感兴趣。它让我很兴奋，我也认为它有不可思议的可能性来解决我遇到的问题。所以我认为这是一个很好的职业选择。所以如果人们感兴趣，我认为他们绝对应该加入进来。这很有趣。

演讲者1:
感谢您收看本期由Databricks为您带来的数据和人工智能冠军节目。成千上万的数据领导者依靠Databricks来简化数据和人工智能，因此数据团队可以更快地创新，解决世界上最棘手的问题。访问www.neidfyre.com，了解数据领导者如何释放所有数据的真正潜力。