扩展定量研究敏感数据

Worldquant预测数据科学公司,利用经过验证的机器学习,人工智能,和定量金融学方法来解决新的业务挑战跨多种行业,如医疗、零售、CPG等等。主要业务目标是使客户得到更快地预测和见解,同时减少了从成本和人才的角度的门槛。要实现这一点,我们的数据平台需要扩展分析工作流跨pre-ibob体育客户端下载ngested数据目录成千上万的来源和数以百计的模型的预构建目录和拥有一个全球研究团队不断从事寻找新的模型,数据来源和方法建模的业务决策。这个数据总经理规模是一个挑战,只有当您添加单词,“安全、保密。“这是至关重要的,以确保机密数据保护与自动访问控制,最大化的手和减少眼睛的数量在一个特定的产品预测。此外,有必要提供透明度和信任通过详细的审计数据的使用为客户。保护数据访问在这种环境下已成为一个重要的瓶颈,这会议将讨论我们正在扩展的方法定量研究努力在这个复杂、敏感数据环境。

看更多的火花+人工智能会话
或
免费试着砖

视频记录

火花峰会上,大家好,欢迎来到一个会话WorldQuant预测。我们将讨论如何使用砖和Immuta寻求创建一个世界上最大的图书馆的预测模型。所以今天我们将会谈论些什么呢?好,我要讲一下WorldQuants预测你理解我们来自它的上下文以及我们面临的挑战在扩展定量研究敏感数据。然后我们会谈论我们的平台特别是看起来的数据部分,以及我们如何使用砖和Ibob体育客户端下载mmuta解决挑战安全地实现大量数据的多样化和分布式组研究人员。

好吧,让我们开始吧。我们是谁?我们实际上是由一个名叫伊戈尔·Tulchinsky开始WorldQuant资产管理、非常成功的量化对冲基金,我们一群人负责将技术和思想,这定量对冲基金对金融行业之外的磨练。简而言之,我们业务问题设定为预测问题,并找到方法的预测。我们使用大量的工具和砖Immuta是两个最好的。最终,我们要做的就是让每一个决定的业务进行重新测试分析决定,只要是可能的。我们如何做呢?好吧,我们的主要观点是,每一个人无论多么聪明,他们好,只有两种方法解决任何特定问题。所以我们已经建立了一个大型的全球研究小组,他们中的一些人在美国,他们中的一些人在世界各地创建解决客户问题的假设和建立我们的模型库。我们称之为一个想法套利原则,这意味着有很多想法和如果我们有很多人,我们会发现大量的真的,真的很好。 To make this all digestible, we ensemble these ideas that people have submitted to us and then through automated testing pick the best ones, and have a predictive product. And we then build the appropriate way of interacting with it from APIs to extract to custom tools for scenario planning, simulation, and prediction. Then the goal for us is to improve business decisions through predictive modeling and increase return on investment for our customers.

好的,那么预测建模的一些挑战是什么规模?让我们来谈谈,我们正确地设置上下文。

规模的限制因素阻止你尝试很多想法是什么?

很多,很多不同的挑战,但四个主要的MLOps,我敢肯定你听过这句话。现在,有时你会听到AIOps,但最终,它是什么,我们要做很多的假说成为模型?这意味着运行大量的测试,版本控制依赖关系,刷新,再培训,各种各样的东西。我们会讨论,简单设置阶段,你需要什么?嗯,你需要大量的假设。假设是真正推动建立预测模型。我想知道吗?这是一个假设。我们将讨论这短暂但今天的大部分时间将花在数据。数据就是燃料,燃料假说和测试,以及隐私和治理。 How do we actually make sure that data that our researchers see is what they should be seeing? What is helpful to them and what is allowed by our various contracts with product vendors, customers, public agencies and the like.

方法:在规模预测模型

这里有一个例子的几个项目我们正在努力。毫不奇怪,许多人正在帮助组织和企业能更好地应对COVID。实际上,一些事情我们可以像处理不同的公共机构在帮助理解哪些客户,用户,纳税人会使用他们的服务,处理商业实体理解当他们可以重新开放商店或储存他们的产品。和我们需要做什么呢?在这个层面上,我们必须首先,我们需要处理数据。所以我们看,搜索世界,我们提供不同的数据源。我们将讨论更多之后,我们的全球研究网络。所以世界各地的研究人员就像我提到的,我们故意试图专注于挑选来自不同背景的人。你长大的地方,在那里你去上学,你的特色专业,博士学位是在所有为您提供独特的生活和分析经验和工具包。所有这些是我们想用来产生有趣的假设为我们的客户。 One of the most obvious things when predicting COVID effects is, for example, to look at a lot of public data and there’s a ton I’ll be showing some examples later, as well as existing epidemiological models as well as published COVID models. So you’ll see where we talk about SIR that one of the things we had to do is build tools for actually ingesting existing models or outputs from existing models as some of the things that we’re working with if we have the rights to do that. We look at different demographic information, various macro and micro KPIs from the government agencies, and other information often coming directly from our clients or bought from our commercial partners. All of this goes into a sort of unholden melting pot. Different researchers may have specialties in different types of machine learning, statistics, data science. Often they’re subject matter experts in things like epidemiology or inventory management. We try to throw as many different approaches at problems as possible. Sometimes some approaches crossover really well from one type of industry to another. Sometimes they require a specialist approach but overall, what we’re really looking for is how many strong uncorrelated hypotheses we can generate. And we’ll talk about how we make sure of that in the next slide. And then once we find some strong candidates we ensemble them together, and as one of the previous slide said, roll on. You have a strong resilient model resilient meaning something that will withstand the shocks of losses of data, large changes in historical record going forward. Which is something that lots of people are experiencing right now. You may be in a business where historical data predicted very, very well what’s gonna happen tomorrow, then a pandemic happens, admittedly somewhat unprecedented. But suddenly your historical data is no guide to you at all. Part of what we strive to do is to build models that are resilient and in fact, build and identify different drivers for common business questions that we can add to models many of our customers already have that are based on their historical records.

方法:质量合奏数十名研究人员创建数以百计的模型,我们结合成一个有弹性的ensem

看看更详细地发生了什么事所以如果我们双击我们如何得到良好的弹性模型?您将注意到两件事。再次,它开始于数据。这就是为什么我将讨论数据和士兵和治理今天几乎其余的谈话。我们的研究人员需要访问它。这是这一点,对吧?一旦他们做的构建,创建假设并建立一些模型。我们有这些模型受严厉批评。你们中有些人可能有类似的设置,你们中的一些人可能仍然是工作,但一些事情我们需要确保不仅仅是性能的关键指标,准确性或召回。我们也想看看他们的假设和模型的行为情况下当你有畸形的输入或极端值。 And then finally, we want to compare them to each other so that we don’t have a lot of correlated models. We have models that are changing independently of each other, maybe it’s because they use different data sources or different assumptions. And that really is what creates a resilient model. And then of course, we have to keep doing this as the data updates. That’s essentially how we do ML or AIOps.

最重要的是你会看到几乎一半的谈话是关于数据和研究人员和研究者如何获得正确的数据和明确的。让我们移动。让我们看看我们的平台是制成的。bob体育客户端下载

我使用这张幻灯片舒适熟悉的完全不同。为什么?嗯,差不多每个人都有一个平台,在逻辑上是这样的。bob体育客户端下载有数据的地方进入着陆区,它被处理。也许α和元α为模型和综合系统是我们的语言有点不同于你。然后最终模型使其生产和操作区。两件事我想指出,这对我们来说有点困难在规模,即使没有过于繁琐的问题,我们可能会有成百上千的模型有时数十或数百数据源。两个kpi,从工程的角度来看我们跟踪和真正渴望速度预测和成本预测。速度预测对我们非常重要,因为这就是我们想给我们的客户。多快我们可以去问一个业务问题或制定有一个合适的模型吗? That’s what a lot of our custom tooling is designed to facilitate and that’s where a lot of our purchases, like DataBricks and Immuta are designed to facilitate. Cost per prediction is really all of the resources human and machine that we have to use to get to this prediction. And that’s, again, where Databrick specifically was one of our choices and I’ll talk about that in a minute. For those of you who have gone through Databrick PoC, you probably notice that they’re very, very big on asking the clients to figure out what their ROI is going to be so they do not feel like they were cheated later. So what we see here is Databricks specifically plays a pretty big role in our platform. That’s the green squares that you see. You see them all over the place sometimes it’s because they are repeated components in different parts of our environment. But the main ones we’re gonna be talking about today is the square sort of on the bottom left. Where we talk about data packaging and data exploration, as well as data validation right above it. We use data cata… We’ll use a few different data catalogs and I’ll say that for data exploration we actually really like the Databricks one, for some of our other purposes, we use Immuta and custom tooling. So you’ll notice that we have a lot of Databricks pieces, a few custom pieces, the MLOps ones that I’ve already shared with you and Airflow in yellow we’ll be talking about how all of this fits together towards the end of the presentation as we talk about specific example for how do we let researchers actually add data safely and securely to our platform and to themselves. But you can see that Databricks is something we’ve chosen to enable better cost and better speed to insight for our researchers. So hopefully, it’s the same for you. Let’s talk about data for a second.

预测经济破坏:数据

这里有一些桶没有太多的数据源的一个典型类型的COVID-19预测。

你必须收集大量的数据能够回答任何有趣的问题,对吧?所以每一个桶可能对我们有10到50的数据源。这是一个相当高的事情,不会花很多时间在这张幻灯片上。但是我们的想法是,你很快得到一个有意义的数据目录,任何和一切都可以连接在一起并迅速提供给研究人员。

预测数据Categoyies &和宏观经济指标

如果我们只看COVID-19蔓延

预测Covid-19传播:数据

你很快就可以再次得到10,20年,30目录

和他们中的许多人有多个表和它是一样的,对吧?有趣的是,尽管并不是所有的数据集很大,有些是当你有一个大目录,这就是火花。很难加入一个小,几十或成千上万的行数据有数十亿行数据就像在传统环境中很难做到。所以对我们来说,速度是非常重要的。所以砖的灵活性是一个非常大的交易。讨论一分钟,但这能够快速加入跨类型的数据,不管数据,也是真的,一个非常大的交易。

减少规模限制阻止你尝试很多想法是什么?

那么我们如何减少这种限制,我们一直在谈论吗?我们已经讨论过MLOps这是我们蓝色的东西。我们看过一点点,我们就会看到一点。假设,我们有一个工具叫Quanto人员可以使用他们所有的标准数据科学和机器学习工具。最终,假说是由人。所以更多的人我们已经和他们有更多的假设我们得到更好的工具。数据,从本质上讲,我们使用砖和对象存储后端。和隐私,我们使用Immuta。如果我们回顾原始幻灯片和现在我们看到,几乎所有的工具,从我们的角度来看,更少的工具,我们必须发展更好。所以我想把像30秒讨论自定义工具。

自定义工具MLOPS

我们的挑战,我们现在有近100名研究人员和快速增长。我们需要他们在多个工作问题,在一起工作。我们看了很多工具,发现它是最成本有效的为我们构建我们的一些自己的工具很多开源的东西。bob下载地址例如,我们提供反馈的方式,我们的研究人员给他们信的成绩与实际分数,因为我们不希望他们overfit。我们管理剧本脚本,有很多东西。如果您的数据科学团队…你需要看自己的数据科学团队的要求,看看那是值得的。与MLflow砖,当然,是一个非常,非常好的解决方案,帮助研究人员经过这MLOps AIOps生命周期不发展任何自定义。所以我只想说我们有自己的要求,很难使用MLflow和其他框架的现在,但你的里程将发生变化,除非你处理成百上千的研究人员对项目可能是一个很好的主意看MLflow和类似的工具。所以我们甚至最终数据砖怎么样?

数据访问、勘探、和共享

你可能已经砖和引发的许多客户但对于那些仍想让我来分享一个故事。右边这张幻灯片,你会看到一堆表和不同的需求的一小部分,我们发现,每一列是一个不同的供应商和我们有几列,不适合在这里。我们看了很多不同的事情。主要我们想看的东西,我们怎么能让研究人员添加自己的数据源?我们希望他们生成的假设,我们希望他们能够说,“Hm-mm我刚意识到,许多机场”在美国发表他们的等待时间。“需要多长时间通过网上检查点。“嘿,我可以得到这个数据源”,也许它会告诉我一些关于宏观流动性”流感大流行期间在美国。“就像我们有很好的工具添加数据源但是很高兴能够这样做你自己。我们想要了解研究人员可以结合数据源和查询。他们能做所有这一切快?这个成本我们是什么? What is it going to cost us when nothing is happening? So we evaluated a lot of different tools and really felt that Databricks was the right one for us.

实际吨的需求需要考虑的几点因素,但最终可以归结为…更多Hvpotheses exnlored的意思

我们真的很喜欢火花。我们喜欢,我们可以混合探索和操作。我们喜欢,我们喜欢的数据源可以添加和管理和虚拟化。

然后当我们看,我们看一些不同的供应商,我们觉得砖对我们来说是一个很好的合作伙伴,我也将增加,我相信砖销售团队不会(喃喃而语),但他们喜欢帮助人们找出如何使用数据砖当你开始。如果你得到一个正确的销售团队,他们真的会帮助你得到相当远的如果你不是已经在你的过程。和一些决策点,我们要考虑的是运气,更多的假设我们探索意味着更好的预测产品。所以这个工具我们寻找的东西会让我们的研究人员生成或测试过程中尽可能多的假设一天或一个星期。给你的,你要想想,我做运营多少火花和探索性。我的意思是,许多组织使用火花,因为他们的数据量太大,这是唯一的方法实际上做他们需要做的事。这是一个业务用例。如果你做探索,你会发现像我们做很多探索性的东西。我们想要让研究人员访问许多数据源。所以对我们来说,例如,笔记本的一件大事。 The ability to do things in Python or SQL was kind of a big deal for us, right? Costs are different so you’re gonna have to figure this out, but that’s some of the things I would want people to consider. Think of what else you have to integrate it with. We have the luxury of building things from the bottom up so we integrated with whatever we want. So that really helps us and we found that Databricks was really, really strong and strongly managed deployment.

它对我们来说是很容易集成与我们现有的工具。

你是否想要再利用现有的美元吗?很多工具都基本上,“嘿,你花大量的钱在X,“我们就像X类固醇,但价格的一半。“在我们的例子中,我们花费新鲜美元真的想确保我们获得更多的价值。最后,和先进的团队有多大。这不是一个决策点从砖的角度但很多利基的用例,我们必须处理部分是因为我们有很多研究人员,我们运行许多不同类型的集群不同的预测问题。好吧,这是一些你会做的决策点。即使你选择了砖或其他一些火花的实现,这些决策点你会一遍又一遍又一遍。组织的变化,如业务变化需求的变化。

保护客户隐私的挑战很多杂耍

所以让我们来谈谈客户隐私的挑战。这里有五个不同的球,我们必须保持在空中。我们需要共享数据的人员得到处都是。很多的限制。

一些更容易处理,例如,在我们的例子中,我们刚刚作出了一个决定,我们所有的研究人员使用虚拟机,是建立在美国和他们不能下载东西。所以耶!但是你仍然与很多人分享数据,在我们的例子中,它可以是很多人。所以我们想知道谁是凶手,我们需要知道他们在哪里。我们要从大量的数据源生成大量的假设。所以我们不想控制对数据的访问紧密,人们不能这样做。好了,我们需要跟踪的事情,因为我们都有合同义务给客户,我们和供应商许可数据,我们必须选择一些我们信任和如何。当然,我提到的速度是很重要的吗?我们需要快速完成。那么我们如何处理呢?

耶,颜色。这真的是阴影,对吧?我选择这些原色,但实际上,有一点点的一切。但是对于本,我们认为事情与Immuta对信任和访问我们的工作。诸如数据和速度,我们使用砖,当然,我也会疏忽如果我没有说它,最大的一件事为我们挑选砖时,Immuta是他们一起工作得很好。所以对我们来说,能够部署Immuta砖几天,对于一个概念证明是一个相当大的卖点。所以让我们看起来更紧密的砖和Immuta如何为我们工作。

砖为我们解决了数据,对吧?

砖的解决D (ata)

当我们和销售工作,销售工程团队,就像你们中的很多人可能我们文档和真的下来了解查询性能比较其他选项。对的,我们要做什么?我们要做多少工作将得到类似的性能?我花了许多年使用关系数据库,我相信很多人都知道有人在你的组织中谁能使任何一种MySQL或PostgreSQL查询相同。问题是,有多少努力。在我们的环境中,我们有很多数据源和很多不同类型的关节,花很多时间在任何特定查询并不理想,对吧?我们当然不希望研究人员。这是更多的一种操作的优化。所以我们需要的东西会很顺利的工作,我们发现砖做的真的很好,特别是当我们知道如何集群管理。我们希望研究人员,我的个人目标之一是我们希望研究者能够提交模型在我们平台上的第一天。bob体育客户端下载 And if Databricks becomes part of that makes them they have to be able to figure out how to use Databricks in some basic way, pretty quickly. We found that Databricks did onboarding really, really well and support for multiple languages is big part of it. I know a lot of it is Spark stuff but, in our case, we feel like we pay for management and tooling on top of a really strong Spark implementation.

安全,我们使用砖企业结合Immuta我们衡量的事情之一是,什么一个数据源之间的时间被确定了,我们就使它成为一个公共数据来源和研究人员一直可用吗?需要多长时间我们经历的周期和我们想要的工具允许我们做快,和定制,使我们更快。

支持ad-hod数据集摄入

实际上我想提出一个例子,我认为我们这样做是很酷,适合到目前为止我们一直在说什么。

想到如何支持临时数据集摄入这个用例并不是特别重要的操作。大多数人关心它从操作的角度来看会说,“等一等,我们知道我们所有的数据”是来自我们有这个提要,tb的数据。“但再一次,如果你看着说,“我想让研究人员想出新鲜的想法,“,他们会不断被玩耍”与不同的数据集。“我们想让他们基本上说,“嘿,我发现了一些东西,我怎么编辑?“伟大的,许多方法可以做到这一点,除了我们将讨论除外。砖支持有自己的数据集,但感觉有点棘手就允许人们上传任何他们想要的到我们的环境。可以上传它,但我们真的希望它可以吗?谁成为现实吗?所以我们想出的过程实际上是使用气流,我们使用编制所有相关数据和你喜欢的对象或数据存储。实际上我们使用砖的笔记本和仪表板的光创建一个工作流,让研究人员为我们添加数据和他们感到舒适,这是安全让我们看看细节。这是发生了什么。开始你可能会认为,研究人员确定了数据集和我们要做的是我们有特殊的着陆区为研究人员,这样他们就可以将这些数据集到着陆区,它会被气流和运行DAG图,指导非周期性主要有很多不同的事情,我们要做的,移动的数据,但最重要的是引发了笔记本,检查这个数据值。

我们有几个这样的笔记本,我们不断地阐述。你可以看到一个非常简单的例子的右上方。但基本上,我们运行通过一系列统计数据命令,找出基本描述性统计这个数据集。我们可以看看有多少销售等等等等。事实上,使用指示板,我们可以填写一些命令。的很难仪表板的顶部屏幕上看到,但最终我们可以允许研究人员说,是的,这就是我认为的数据集。去吧,把它放到原始和可信的东西。这些都是我们两持有者为数据。好吧,听起来不错,到目前为止,也许有点太多的工作简单地复制一组文件从一个桶到另一个地方。但这是很酷的一部分,我们能做的是自动创建的数据源数据砖这可用其他人,我们可以设置范围的项目,提供给所有的其他研究人员对项目和映射到正确的数据库集群。最后,我觉得这很酷,我们可以使用Immuta,这是我将讨论更详细的创建一个受保护的数据来源,会检查数据源PII之类,φ和其他类型,我们不希望任何一种信息研究人员看到,更多的让我们去下一张幻灯片。

Immuta解决为P (rivacy)

Immuta做什么工作?Immuta允许我们创建政策和基本角色上下文允许我们了解数据的访问。Immuta跟踪所有的数据访问,为我们创造了一个审计跟踪和提供研究人员使用标准ODBC / JDBC样式设置。到目前为止还好。但一些这两个特性,我真的,真的,真的很喜欢,我有在底部的例子,下面的文本和右上角。其中一个被称为上下文。Immuta让我们所做的是说,“当然,你的用户身份验证,但实际上他们是如何使用数据?“所以通过创建这样的背景下,例如,当我联系他们以指令的方式,我会有一个探索者的上下文中,而当我运行我们的服务器端测试,我的角色是一个模型的测试环境。

哪些数据是可以通过完全相同的查询。是完全透明的研究人员可以是不同的。我们可以限制的行数或价值多少天的数据。我们可以这么做。我们可以创建一个策略,基本上是说,如果我访问该数据源作为一个研究员,然后我不看到最后90天的数据无论他们做什么。不管什么样的火花或Databrick查询我写,写完了。你不看到最后90天的数据,这是非常,非常强大。这是一个既舒适又从审计的角度,角度来看,坦率地说不是犯愚蠢的错误,当你试图满足您的数据。这是非常,非常好。另一件事是真的,真正的强大,是微分隐私。 Differential privacy is a mathematical technique that basically jiggers I know there’s a better word for it. Creates a certain amount of randomness in the data that does not affect its statistical properties. But actually, in effect, anonymize it and changes the data. So Immuta, for example, supports policies that says when I’m accessing the data in an exploratory state, on the server without using differential privacy, so that what the researcher see isn’t the actual data. It’s close enough for the purposes that they have. There’s gonna have roughly the right number of Monday’s for example and Tuesdays, but it’s not actually the data that is in the database. It’s essentially on a fly synthetic data set that is statistically different but protects the privacy. Immuta has many other properties such as masking rows masking data, but these two combined with our ability to apply them to command means that we can put essentially up the street data source into Databricks with Immuta

感觉舒服,研究人员看到的是不会包括任何PII,φ,或任何其他有害信息哦,顺便说一下,当我们处理敏感客户数据我们可以使它的方式对研究人员通过数十亿行统计的数据,因为它是正确的。但实际上并没有显示任何客户数据

的研究人员,以防丢失或类似的东西。显然,我们仍然与客户合作保护这些数据,之后所有的指导方针。但这是一个非常不错的功能,感觉我们和我们的客户更满意我们如何保护自己的隐私和他们所代表的人的隐私。还做最前沿的机器学习和数据科学数据。总结,砖给我们的规模和速度Immuta给我们的隐私。砖和Immuta大部分是我们提供我们的研究团队。

谢谢你！谢谢你加入我们,我希望你学会了一些在这演讲。

看更多的火花+人工智能会话
或
免费试着砖

«回来

关于Slava Frid

Worldquant预测

Slava 20年+科技行业资深重点解决业务问题与软件工程,他已经带领获奖团队在金融、媒体、和非营利部门和喜欢把信封什么被认为是可能的。他目前正在接受的挑战,帮助建立一个新方法,使定量研究人员回答棘手的问题企业和组织。他收到了他从沃顿商学院经济学学位,计算机科学学位宾夕法尼亚大学工程学院。