授权Splunk和其他与砖Lakehouse siem网络安全

2021年5月26日,上午11:30 (PT)

下载幻灯片

云、成本、复杂性和覆盖率最高的每一安全的威胁。Lakehouse架构出现了近年来帮助解决这些问题用一个统一的架构你所有的威胁数据,分析和人工智能在云中。在这次演讲中,我们将展示如何Lakehouse对于有效的网络安全是至关重要的和受欢迎的安全用例。我们还将分享如何砖赋予未来的安全数据科学家和分析师以及该技术允许网络数据集被用来解决业务问题。

在这个会话表:
乔治·韦伯斯特,汇丰(HSBC)全球网络安全科学和分析
副总裁Monzy Merza网络安全市场推广,砖
主管Jason Trost解析引擎,汇丰银行

成绩单

乔治·韦伯斯特:你好,欢迎来到讨论释放你的安全从业人员数据架构。我们要关注让我们siem和一点谈论Lakehouse网络安全体系结构和如何使用它。我是乔治。韦伯斯特。我是汇丰(HSBC)全球科学和分析。我的背景,我专注于大规模数据分析,进攻心态,主要为预算,因为不幸的是,我是一个经理,我不弄脏,用我的双手了。最初我来自国防部,美国中央情报局,学术界、然后我去金融服务销售一空。我喜欢做饭。如果你们不能告诉,它显示了一点。和我的照片是专业规定的头像,看起来很不错。和我一起,我带了杰森Trost。 He’s focusing on developing capabilities, mostly on network security. He also works with the data science role of how can we start sticking data science into the normal practices of our security practitioners.
他也是从国防部,种植和涉足创业公司,然后就像我一样,他卖完了,来到了金融服务。他有一个非常强烈,meme的游戏。很愉快的去看他的聊天记录。看看这张照片,因为说真的,没有理智的保镖会承认。我们还把我们的一个同事,Monzy。他是一个网络营销副总裁砖。和他的背景,他真的关注网络安全服务团队。所以他如何帮助我们得到我们需要的地方吗?他来自美国国防部,即使他不会状态。他还曾在国家安全实验室和他在Splunk工作。 And way back in the day when I first met him, this was about 20 years ago, he was obsessed with green chilies and he still is today. He took that picture himself, but he also looks pretty good.
在我们开始之前,一点关于这个的法律术语。这些数字我们这里要讲的,有趣的东西,它来自同行评议材料或主要出版物。绝不是任何与汇丰银行或砖。演示的一样,架构我们要关注这些模式和过程,很大程度上参考。其实这不是我们的代码。这不是从汇丰银行。它不是从砖。但我们要让它现实的或尽可能的真实。也有一些其他的东西。你可以去读它,但我们需要确保你意识到这是一个演示。 This isn’t representative of actually what we’re doing at HSBC or Databricks.
汇丰银行(HSBC)是谁?现在很多人在美国可能是,“我不知道谁是汇丰银行。”,但它实际上是一个跨国投资和金融服务公司。我们成立于1865年。我们几乎无处不在。我们也是迄今为止世界上最大的金融公司。所以我们有大约三万亿的资产。我们在某个地方像64个国家。我们有大约226,全球各地约300000名员工。我们有大约4000万个客户。所以我们非常大,即使你们在美国没有人。 Our office and for this is myself and Jason Trost, the mission statement’s there. You’re welcome to read it. But the real main takeaway here is, we’re focused on figuring out how can we empower our people, our processes, and our technology, so we can get that analyst of the future, so we can start getting ahead of everyone and the attackers and staying ahead.
所以当我们开始谈话,让我们谈谈这里的问题。如果你看着它,你有一个后卫。通常要花约200天来检测恶意活动。如果你看一个调查,一旦你知道吗,我们需要研究它,当你弄清楚发生了什么,所以我们知道我们需要做什么。这几乎是54天。这个数字,它并不重要,如果你看着它20年前,十年前,五年前,甚至如果你明天看,这些数字是相当恒定的。不幸的是,如果你看看袭击者,24小时从受害者到受害者b,这是一个很糟糕的情况。袭击者在小时操作,我们在天。我们需要获得成功。我们需要变得更好。 We need to be proactive.
所以当我们进入这个演讲,就像在你的负责人认为,“我们要怎么做呢?我们怎么开始呢?实际上,这些大型金融机构如何让每个人都安全吗?“我们的客户,银行,所有有趣的东西。如果你看看范式和发生了什么SIEM的世界,这是非常非常代表网络安全,我们的工具,我们的操作中心,如何缝合在一起的一切。我们有数百个安全工具。我们要购买最好的,我们将部署最好的,我们将关闭控制。然而,所有这些工具,他们相当大的野兽。他们会发送警报,因为数据被锁定在工具本身或频谱的工具或工具集。这就是为什么你使用云来表示电子邮件。它不只是一个工具。 It could be upwards of 20 plus different tools. But that general alert is going to be sent to the SIEM. And the data itself starts to put pressure on that SOC.
SOC,人真正理解这些安全警报,搜索通过它,做他们的用例,将会是主要工具的使用。但是现在如果有一个电子邮件的问题,他们会坐在那里,说:“太好了,我知道有一个问题。现在我需要去邮件工具和进一步学习和进一步学习,进一步学习。“这原因,soc架构开始补偿问题。他们为我们做分析。我们把所有认知负荷上那个人。这是一个问题。如果你觉得网络安全,这是一个巨大的,大数据的问题,对吧?大量昂贵,它的能力是有限的。如果你观察终点,这是你的代理你安装在笔记本电脑,和我们的公司大小,你看每天约100 tb,只是日志流量。
如果你开始看你的网络传感器,你看着介于40至50 tb的一天。当你开始看你的云计算和云部署,进一步,VPC流数据。这是另一个约20 tb。如果你开始看这SOC的安全报警和信息也需要在云端,你开始添加5到10 tb的一天。这意味着,为了安全分析师仅一天,你看每天约100 - 200 tb的数据。如果你认为建筑我刚给你们看,它开始理解为什么它是这样的缝合。你的能力有问题。但这有点糟糕。我们回到这些数字显示。54天做一项调查,200天来检测恶意活动,你有一个历史性的问题。 So if we want to retain this data for 13 months, we’re talking about somewhere between 38 to 79 petabytes.
如果我们看这个问题,我们有一个成本问题。我不打算把这一切变成SIEM的数据量,它太昂贵。我不能把它扔进一个工具。我们也有复杂的问题。我们如何开始进入我们的数据?我们如何开始使用实时附近?,我怎么能把它变成最优形式或形状能够做我们需要做什么?在上面,我们有云,为我们增加了额外的层的复杂性。在这种范式,我们发展在我们的架构中,我们试图找出我们如何能做到这一点的方式节省成本。我们如何开启我们的数据? How can we enable analytics? And how do we start to empower our people?
再一次,这都是关于人与我们通过使用Apache火花etl,打破这种锁定我们的供应商。我们开始把它放在Lakehouse,所以我们可以开始进入我们需要的形式,开始创建这些功能将帮助驱动的任务和具体任务,无论发生。昨天是什么吗?酷。明天我们有,但是我们需要别的东西。现在我们可以开始做,并开始操作速度和速度。然后我们把这些信息回SIEM,再次,解锁,我们的人民和得到他们需要的形式,我们可以开始破碎。,我将其移交给杰森Trost。实际上他将向你展示一些这些病例和潜水的更深一点。

杰森Trost:谢谢,乔治。我是杰森Trost,我要盖两个不同网络安全相关的用例。第一个用例是威胁检测和DNS数据。所以我们要打破这个问题分成两部分。第一,我们想找的图片域。上图是几种不同的图片所以域www.neidfyre.com。如果你看一下一个我特别强调了,这是www.neidfyre.com,但你可以看到一个额外的点。为什么会有人利用这些域名吗?他们看起来很像砖领域的这些可以很容易地通过,用于钓鱼。得到一个砖的员工或其他员工单击其中一个链接,也许进入一些凭证,坏家伙现在已经能够窃取这些凭证。 So we want to be able to detect this sort of activity if it hits our network.
我们想要关注的下一个区域是DGA域。这些是域域生成算法。你可以看到,这些看起来真的有点长,随机,有很好的理由。这是一个常见的趋势为恶意软件算法基于伪随机数生成器创建域,在那里他们可以创建,每天成百上千的这些领域,并尝试与他们每一个人交流。知道至少有一个人会控制一些演员,一些对手,这个恶意软件将允许建立一个指挥和控制通道,以及绕过任何形式的黑名单,是基于大型静态域的列表。这是另一个挑战的事情我们希望能够检测DNS数据。那么我们如何做呢?
嗯,我们的企业规模。我们有大约10 tb的DNS日志每天进来。为了真正利用…对不起,为了尽快处理这些威胁,我们需要执行实时威胁检测。所以一旦我们找到这些东西之一,当我们需要一个警告我们SIEM。为了真正采取行动对这些,为了检测这些,我们需要使用机器学习、规则和威胁情报充实,为了找到这些在我们的DNS数据。最后,就像我提到的,一旦我们发现其中的一个,我们要SIEM发送警报。这就是我所说的秘诀。所以我们从一个被动的DNS数据集。这些都是发生在我们网络的DNS请求。这些是被删除的地方像Amazon S3。
它们被放入文件得到滚说大约每两到三分钟实时附近。从那里,这些日志却被推到一个火花流体系结构,然后我们可以进行充实,我们需要执行以及检测。对于充实,就像我之前提到的,我们将执行情报浓缩的威胁。这些都是跳跃的这些域名的列表的东西不好。我们也要做IP地理位置查询。这让我们明白在哪里与这些领域相关的IPs位于世界,这是非常有用的在做分析时,特别是筛选这些警报。最后,我们要预先生成大量的图片域列表我们关心每个品牌。
举个例子,砖或汇丰银行,或任何其他第三方供应商,我们可能操作,使用Dnstwist之类的工具或其他开放源码工具。bob下载地址一旦我们有一个丰富的数据集,然后启动并准备执行检测,我们需要做的。第一个是域生成算法。对于这个,我们需要使用机器学习。然后在接下来的一个,非常相像域检测的一代。所以,我们要用我之前提到的丰富的数据集。最后,为了使这个尽快,我们将部署到一个流架构,我们可以执行这些分析SIEM近乎实时的和发送警报。所以从技术的角度这是什么样子?就像我提到的,我们有大约10 tb的DNS数据每天Amazon S3。这些数据是被拖入一个摄入层,我们需要进行摄取,ETL操作,和规范化数据最终土地进入三角洲湖,,然后我们将这些数据存储在一个很好的格式。
我们可以执行查询和分析,我们可以执行充实的地方。我们可以优化实际用例我们讨论。我提到我们需要使用机器学习DGA包。为此,我们使用MLflow设置我们的培训工作和执行分类。一旦我们有机器学习引擎运行在这个DNS数据,我们把这个几乎就像一个过滤器。我们的分数进入这些领域,任何看起来像一个DGA域和足够高的分数,是要被派去SIEM警报。这从本质上说,是我们所有的大规模每天10 tb的日志,并将它归因于有趣事件到兆或者潜在g SIEM每天的日志。我们也希望从siem反馈回来。分析师分类这些警报,他们发现假阳性或有其他问题,可以标记那些,我们可以把这个回到训练中心,确保我们的机器学习模型不断变得更好。
我们也希望使用类似SQL执行查询和报告分析。所以图片域生成,例如,这是纯粹的许多许多加入反对DNS数据和大量的图片表。所以,我们可以使用SQL分析,执行查询和报告,确保这个被拖入SIEM。你的分析师可以充分利用这一点。所以这种方法的好处是双重的,它的速度和规模。所以我们能够处理每天10 tb的数据,这是我们之前做不到的。它不是直接在SIEM划算。我们可以增加我们的SIEM经济。而不是处理所有10个字节,我们处理他们以外的SIEM高度经济和快速的在系统这样做。我们只发送警报,我们需要回到SIEM。 We’re able to leverage things like machine learning and advanced analytics, also something that our SIEM is not capable of doing, especially at this scale.
最后,我们保持实时的检测能力与DNS的威胁,也就是要求我们所做的一切,需要尽可能实时所以我们可以尽快采取行动。所以现在我要进入第二个用例,这是大规模的捕猎的威胁。威胁狩猎的目的是筛选网络安全日志数据以发现恶意行为的迹象,与当前和历史逃避现有安全防御。这是一个非常积极的活动,这些天很多大型企业做。试图找到敌人的目标,可能在某种程度上,一些进入网络和操作方式。所以我们希望能够把尽可能多的分析技术和先进的过程,我们可以看到如果我们能找到他们,把他们以外的我们现有的控制。那么我们如何做呢?为了做到这一点,我们需要能够探索大量历史日志数据。我们还需要能够跨日志数据源的相关活动。
例如,乔治的一些日志前面所提到的,我们开始与结束点。我们想通过网络从端点检测活动,到云。这意味着我们需要能够做很多很多连接在这三个不同的数据集,这样做自动规模。接下来,我们需要利用分析,不仅检测和机器学习。这些对手竭尽所能逃避检测。他们试着使他们的攻击融入正常的交通。我们真的需要游戏并在必要时使用先进的技术来帮助我们检测到它们。最后,所有这些需要是可重复的,自我记录和团队导向。威胁狩猎发生,我们希望猎人的威胁能够相互协作,共享结果很快,和理想的可重用工具,可以把现成的狩猎后,用于未来的威胁。
不仅如此,所有这一切需要做大规模。所以前面提到的大量乔治,你真的需要应用这四个东西陈旧,使得这相当大的问题。顺便说一下,我们还需要做这个步伐。所以威胁打猎一般没有一些悠闲的研究活动,在很长一段时间。一般来说,这是由世界主要的事件开始。威胁情报公告发布,我们的行政利益相关者了解的东西可能会袭击的消息,他们真的需要知道尽可能快,这是威胁影响我们吗?这就是我们威胁猎人必须跳和帮助。所以我们去一层深入我的意思是,用一个假想的例子。一个新的质量供应链攻击是在野外发现的,和这个活动的细节通过政府公开威胁情报简报。
此公告包含很多细节,包括战术、技术和程序的对手,以及域名、IP地址和恶意软件文件哈希表实际上是用于攻击。但报告还声称他们发现的活动开始大约一年前。这报告被公开,我们行政利益相关者了解它,他们想知道,敌人在我们的网络吗?还是这个对手曾经在我们的网络?这就是猎人需要介入的威胁,这个威胁捕猎的范围是12个月。因为这个活动发生在大约一年前,做尽职调查,我们需要回去至少一年,这样做。这样子的呢?这样我们如何执行和威胁狩猎吗?所以在大多数公司,SIEM安全数据住在哪里。这是因为同样是宇宙的中心的检测和响应行动。
但12个月的事故数据记录和网络日志,像乔治前面所提到的,很可能几个pb的数据,只是不会SIEM由于经济原因。即使我们可以把它们放在SIEM,大多数SIEM不是专为大型和复杂的历史搜索这种规模的数据。他们不支持诸如许多许多连接。所以如果我们想顺着足迹从端点通过网络和云,它只是不会是可能的。他们不充分支持机器学习和人工智能的用例,特别是在规模,我们需要和他们不开放平台。bob体育客户端下载所以我们需要一种更好的方式来做到这一点。所以从技术的角度这是什么样子?所以我们有大量日志,云,端点,网络,等等,根据每天大约价值一百tb的数据。我们商店这个廉价的云存储和使用三角洲摄入。
所以便宜的云存储超过处理我们保留需求多,每演出更便宜比我们SIEM的能力来处理这些数据。和三角洲湖提供了很好的摄取层和格式化的数据使我们能够执行复杂的查询和分析的规模,我们需要。让我们用火花。所以我们真正想要的东西可以利用云的弹性使用弹性MapReduce,或砖平台利用火花,进入三角洲湖,抓住它需要的数据和执行复杂的猎人需要做分析,我们的威胁。bob体育客户端下载为了揭露火花集群三角洲湖猎人,我们使用砖笔记本,这让他们很容易搜索和查询历史数据规模,他们需要,充分利用云的弹性的火花集群和经济三角洲湖内存储。
最后,我们威胁猎人现在可以开发砖笔记本,帮助他们编纂捕猎的威胁,使他们能够执行查询,返回结果,迭代地回答问题,然后共享结果和跨团队协作。所以快速总结这种方法的好处,都是规模和速度。所以我们现在能够处理处理所有需要的数据,每天大约价值100 tb的数据。我们可以增加我们的网上可查询从天保留率,许多个月,让我们到pb级别,这是我们绝对需要的东西。我们预料我们威胁捕猎的范围可以大得多,因为我们都有更多的在线数据和处理这些数据的能力。和速度,我们可以超越这些高级分析对手的步伐。我们的威胁猎人这些砖笔记本和巨大的火花集群可以充分利用提问一样快,他们需要迅速和返回结果。
捕猎的威胁也通过笔记本现在可重用和自我记录。所以我们希望,正因为如此,我们的威胁猎人很容易能把这些笔记本从架子上未来类似的狩猎或者潜在威胁每一两个月,让我们重新运行过去的狩猎,我们只是跑更新参数,看看有什么变化。因为这两个东西,我们预计,我们将能够执行每个分析师两到三个狩猎,因为不再是受硬件。和他们会有很多更合理的工具可以使用。现在我已经谈到了这一方案的好处,Monzy会穿过一个详细演示的威胁使用砖狩猎。

Monzy Merza:谢谢你,杰森。大家都听到杰森和乔治,他们需要对汇丰的大规模安全行动,和杰森谈到DNS和狩猎用例的威胁。在我进入演示之前,让我给你一个概述演示将是什么样子的。首先,我想让你关注我的演示,我指的是多个角色。我相信砖安全相关的所有安全团队。所以我们要讨论角色像数据科学家。我们将谈论角色像安全从业者,甚至我要给你的人不一定是一个安全的实践者数据科学也可以使用砖。我们要看看DNS的用例,就像杰森谈过。我要深入探究DGA的分析显示数据科学的角色,在砖是怎么做的,我们要去看看这个问题。
当你有这些成堆的国际石油公司,如何做匹配许多许多连接,詹森谈论?这是一个困难的问题。所以,让我们跳进演示。这里你看到在我的屏幕上,只有一个简单的表单字段,一个域名。如果你只是想知道这个域名实际上是一个动态生成的域名?这里我们可以输入域名,我们可以运行并执行。这是一个简单的形式执行,你可以看到它说这个域名是国际奥委会的分数。很容易执行,但现在你在想,好吧,你怎么能算出来吗?现在这一切背后,我们建立了一个DNS笔记本,一个DNS检测笔记本,杰森的配方。
摄入。检测模型,英特尔充实,威胁和productionization的检测与机器学习模型,使用MLflow。这就是所有的周期是在后台发生了什么,这使我们做一个非常简单的搜索,但它收集所有这些事情在一起。现在就让我们一探究竟吧,看,它看起来像从数据科学家的角度来看,当他们努力在砖,当他们试图发展这台机器学习模型算法动态生成域名吗?屏幕上我们所拥有的,是一个DGA模型已经建立。有很多不同的DGA在线模型的例子。这个是在Python中构建的。所以你可以在这里看到我们做的第一件事,我们使用scikit-learn把我们需要的方法和函数以测试古怪。我们要看跨多个类型的事情在这个模型本身。
我们要看熵。我们要看Alexa的字格,因为这个模型将Alexa一百万列表作为一个非DGA或非域名算法,生成的算法。然后我们将使用MLflow实际执行和productionize流。之前我们所做的,我们要培养这个模型。所以我在这条线1819,这就是我们要训练该模型并创建适合这个模型。当所有这些都完成了,我们会使用MLflow存储这个模型,该模型的识别,所以你可以回去,看看这个模型是有效的。现在你所看到的数据科学的角色。现在让我们看看威胁猎人角色查找时这些成堆的国际石油公司。
杰森这个例子向您展示了他说的地方,有一个报告,他们说,“好,我们被这个特定的威胁影响演员吗?“这里,我要给你这许多许多加入的例子,很多猎人与威胁。所以在这个屏幕,我想提醒您注意这个命令10块,我选择从银数的威胁。我想告诉你,当你得到国际石油公司,他们只是不喜欢一个或两个。他们可能在数十或数百人。在本例中,有27000国际石油公司,我们必须匹配。如果我们滚动下面,你可以很快看到我们要匹配所有我们的域名和DNS域名表所有这些国际石油公司,这些27000年国际石油公司。我们要执行搜索。
所以现在你可以看到,它运行在一瞬间,因为砖使这个非常非常巨大的计算能力。所以现在我们可以得到结果。的结果对我们来说是非常有趣的是,所有这些不同的特点,我们从不同的网站提供这种机会,例如,恶意软件下载,或URLhaus,等等。我真的想喊出发送到URLhaus家伙使这种威胁源社区的每个人,这样我们可以做这个演示这许多许多加入例子给你。所以,结束使用SQL分析的两个部分,你看到,你看到我们使用基于表单的搜索,你看到它是什么样子当我们想做这许多许多加入狩猎而我们做威胁。
所以现在我要切换回PowerPoint和穿过一个集杰森谈过。最大的一件事是,尽管SIEMSs可能不是规模或siem可能很困难,他们还是环境的一部分,我们要确保行动仍在继续。如果我们去下一张幻灯片,你将看到的是,我们的砖添加Splunk,使我们能够从Splunk发送查询和笔记本电脑和工作成砖,然后得到结果并回Splunk开始搜索和结果。请下一张。所以在下一张幻灯片,如果你熟悉Splunk,您可以看到,这是每个人都知道,Splunk UI使用砖查询命令,你只是发送一个查询从在Splunk砖,并得到结果回Splunk。
下一张幻灯片中你将会看到什么,我们执行一个笔记本从Splunk成砖,得到结果后再回砖。再一次,你不会离开Splunk UI。如果你去下一张幻灯片,你将看到的是,我们有这个复杂Splunk搜索,查询的数据砖,只是整体的一部分搜索管道。所以我把这个放在一起,这样你就可以看到一切都可以一起工作,你可以保存搜索和其他你可以做自动执行的任务,Splunk管道内为了利用砖。最后一页,我想向你介绍这个演示部分大约会发生什么事情的结果发生在砖进入Splunk,这里你可以看到结果。
在这个例子中,搜索,从而形成我们早早跑,实际上创建了一个事件,然后被Splunk索引。这是国际奥委会的事件以JSON格式你看这里Splunk屏幕。现在让我们总结我们所做的。如果我们去下一张幻灯片,我只是想谈谈,也许先进一个,请。让我们讨论的结论。你见过这个会话过程中吗?所以四大关键外卖这张幻灯片。请下一张。首先,你看到有一个大的猎人的威胁和攻击者之间的差距,或安全团队和攻击者之间的小时,24小时,就是乔治提到的,200天或54天检测,然后进行调查,这是一个巨大的海湾。
第二,遗留siem并不擅长这类活动pb和pb级的数据,杰森和乔治讨论。和他们所做的,是他们实现汇丰Lakehouse架构来解决这些问题。最后,所有这些方法真的可以解锁你的团队在所有环境中可以看到。下一步是什么呢?所以我想让你做的是检查砖的深潜水演示,而且,如果你想安排一个实习培训或组织研讨会,所以砖团队可以来帮助你。DNS的笔记本,你看到是公开的,如果你只是谷歌DNS检测罪犯,它通常出现在谷歌第一或第二。
如果你真的需要我们谈论任何事情或者只是好奇,我们很容易发现,拿出你的手机,拍照,或者你会有以后的幻灯片。您可以使用这些。我(电子邮件保护)砖网络团队和汇丰银行网络团队是可用的(电子邮件保护)和汇丰。感谢你加入这个会议和我期待着很快收到你的来信。谢谢你乔治,和谢谢你,杰森与砖。我们非常感谢你为我们的客户和我们的合作伙伴。

乔治•韦伯斯特

乔治·韦伯斯特是全球网络安全科学和分析。乔治负责授权保护银行的网络安全使命驱动主动战术和圣……
阅读更多

Monzy Merza

Monzy Merza

Monzy Merza砖是网络营销的副总裁。他负责驾驶砖网络安全的商业策略。在他15年的经验,他一直……
阅读更多

杰森Trost

杰森Trost是汇丰银行的网络安全科学的分析引擎和分析部门。他很感兴趣的是网络安全,DFIR、大数据和安全数据的科学。他曾在…
阅读更多